1000+ Fünf-Sterne-Bewertungen und Top-Auszeichnungen machen uns zu einer der gefragtesten Lernplattformen.

maschke academy blog

Wissen. Technik. Kreativität.

Der offizielle Blog der Maschke Akademie: Updates, Tutorials und Insights aus der Welt der digitalen Bildbearbeitung, KI und visuellen Medien.

← Zurück zur Übersicht

Künstliche Intelligenz 23.07.2025

Gemini 2.5: Bilder verstehen und segmentieren per Konversation

Gemini 2.5 bietet eine bahnbrechende Funktion namens conversational image segmentation, die es ermöglicht, Bilder nicht nur zu verstehen, sondern auch gezielt per natürlicher Sprache auf einzelne Bildbereiche zuzugreifen und sie zu segmentieren. Anders als klassische Bildsegmentierungsmodelle, die nur Objekte aus festen Kategorien erkennen ("Hund", "Auto", "Stuhl"), erlaubt Gemini 2.5 komplexe, kontextbezogene Anfragen direkt als Konversation in Alltagssprache.

Kernfunktionen und Anwendungsbeispiele

Komplexe sprachliche Beschreibungen: Gemini kann auf Bildbereiche zugreifen, die durch relationale, logische oder abstrakte Beschreibungen definiert sind. Beispiele sind „die Person mit dem Regenschirm“, „alle Personen, die nicht sitzen“, oder abstrakte Konzepte wie „Unordnung“ oder „Schaden“.
Texterkennung und -zuordnung: Auch Inhalte, die nur über eingeblendeten Text (OCR) differenzierbar sind, werden erkannt – etwa „die Pistazien-Baklava in der Vitrine“, selbst wenn die Unterscheidung rein visuell nicht möglich ist.
Mehrsprachigkeit: Anfragen und Objektbeschriftungen sind in verschiedenen Sprachen möglich – Gemini 2.5 unterstützt also die Kommunikation und Segmentierung über Sprachbarrieren hinweg.
Beispiele für Workflows:
- Bildbearbeitung: „Den Schatten des Gebäudes auswählen“ statt mühsamer manueller Selektion.
- Arbeitssicherheit: „Alle Personen auf der Baustelle ohne Helm markieren“.
- Versicherungswesen: „Markiere alle Häuser mit Sturmschäden auf dem Foto“.

Technischer Hintergrund

Gemini 2.5 nutzt multimodale Fähigkeiten: Es werden Text-, Bild- und auch kombinierte Abfragen akzeptiert und verarbeitet.
Segmentierungsergebnisse können etwa als JSON mit Masken und Labels ausgegeben werden, was Integration in professionelle Anwendungen begünstigt (z. B. Photoshop-Plugins, Automatisierung in DAMs).
Die API und Tools sind für Entwickler offen, etwa über Google AI Studio.

Einschränkungen und Roll-out

Nicht alle Funktionen sind weltweit sofort verfügbar; manche Features befinden sich noch im Roll-out oder in Early-Access-Programmen.
Für beste Resultate empfiehlt Google aktuell den Einsatz des Modells „gemini-2.5-flash“ und präzise, beschreibende Prompts.

Für Fotografen und Kreative bedeutet das

Die sprachgesteuerte Segmentierung beschleunigt viele Bildbearbeitungsprozesse drastisch – Objekte und Bereiche lassen sich selektieren und benennen, ohne umständliche Masken oder Lasso-Werkzeuge. Vor allem bei komplexeren Selektionen oder bei Stapelverarbeitung bietet Gemini 2.5 neue Möglichkeiten zur Automatisierung und Konversationssteuerung.

Wichtige Hinweise

Der Funktionsumfang hängt vom aktuellen Roll-out sowie landesspezifischen Verfügbarkeiten ab. Die Integration in gängige Bildbearbeitungstools erfolgt wahrscheinlich schrittweise über Erweiterungen und APIs.

Zusammengefasst

Mit Gemini 2.5 können Anwender Bildinhalte per Konversation analysieren und präzise segmentieren – auch bei anspruchsvollen, sprachlich komplexen Anforderungen und in mehreren Sprachen, was insbesondere für Fotografen, Designer und andere Kreative vollkommen neue Workflows ermöglicht.