geht es aktuell vor allem um SAMÂ 3 und SAMÂ 3D â Metas neue Segment AnythingâModelle, die Objekte in Bildern, Videos und sogar 3D aus beliebigen Prompts heraus erkennen und segmentieren.
Was SAMÂ 3 kann
SAMÂ 3 ist ein FoundationâModell fĂźr âpromptable segmentationâ: Du kannst mit Text (âdas rote Autoâ, âPerson auf dem Pferdâ) oder Klicks/Boxen arbeiten und das Modell findet und maskiert die passenden Objekte im Bild oder Video.
Im Gegensatz zu SAM 1/2 versteht SAM 3 offene Wortschätze (open vocabulary), erkennt mehrere Instanzen gleichzeitig und trackt sie konsistent ßber Videoframes hinweg.
Typische Einsatzgebiete
Datenannotation (z.B. fĂźrs Training eigener Modelle), Bildâ/Videobearbeitung, Robotik, AR/VR, autonome Systeme, Ăźberall dort, wo du Objekte schnell und zuverlässig lokalisieren und verfolgen musst.
In Kombination mit einem MLLM (âSAMÂ 3 Agentâ) lassen sich sogar textbasierte Fragen wie âWelches Objekt wird benutzt, um ein Pferd zu lenken?â beantworten, indem das System passende Masken iterativ findet.
SAMÂ 3D: Von 2D zu 3D
SAMÂ 3D erweitert das Konzept auf 3DâRekonstruktion: Aus einem einzigen Foto werden 3DâObjekte bzw. Szenen erzeugt, inklusive Form, Textur und Pose.
FĂźr Profis ist das momentan vor allem als schneller Entwurfsgenerator spannend (KonzeptâModelle, ARâMockups), braucht aber oft noch manuelle Retopo und Feinschliff, bevor es produktionsreif ist.
OpenâSource und Zugriff
Meta stellt SAMÂ 3 und SAMÂ 3D als offene Modelle mit Code auf GitHub bereit; du kannst sie lokal, im eigenen Lab oder in Pipelines (z.B. mit UltralyticsâWrappern) einsetzen.
FĂźr dich als Fotograf/Editor wäre ein typischer Workflow: ObjektâMasken mit SAM 3 erzeugen (Freisteller, selektive Korrekturen, VideoâMasken) und diese weiter in Photoshop, After Effects oder Resolve nutzen.
Hier findest du weiterfĂźhrende Informationen: AI Demos Meta