Die Google Gemini Live API bietet seit Sommer 2025 deutliche Verbesserungen speziell fĂźr Sprachassistenten und multimodale Anwendungen.
Die API unterstĂźtzt nun parallele Audio-, Video- und Texteingaben und ermĂśglicht flieĂende, latenzarme DialogfĂźhrung â auch in komplexen Situationen und verschiedenen Medienformaten. So kĂśnnen Sprachassistenten nicht nur hĂśren, sondern auch sehen und in Echtzeit reagieren, z.B. auf Live-Kamerafeeds.
Die neueste Version (Gemini 2.5) erlaubt eine native, besonders ausdrucksstarke Audioausgabe: Anwender kĂśnnen Tonfall, Akzent und Sprechstil individuell steuern. Geschichten kĂśnnen etwa dramatisch, flĂźsternd oder mehrsprachig vorgelesen werden â aktuell in Ăźber 24 Sprachen.
Gemini erkennt Emotionen an der Nutzerstimme (Affective Dialogue) und passt die Antwort dynamisch an. AuĂerdem kann das System Hintergrundgeräusche erkennen und âweiĂâ, wann es zum Beispiel bei Gruppengesprächen sinnvoll reagieren soll (Proactive Audio).
Die Live API fßhrt einen Sitzungs-Speicher ein: Alle Interaktionen einer Session werden im Kontext gehalten, sodass persÜnliche Präferenzen und Gesprächsdynamik in Echtzeit berßcksichtigt werden kÜnnen. Sprachassistenten kÜnnen zudem externe Dienste ansteuern, Websuche auslÜsen oder Code ausfßhren.
Die API basiert auf WebSockets, unterstĂźtzt Python-Integration und bietet Vorschaufunktionen fĂźr verschiedene Gemini-Modelle. Sie ist Server-zu-Server ausgerichtet, empfiehlt fĂźr mobile und Web-Apps jedoch KooperationslĂśsungen mit Partnern wie Daily.
Diese Funktionen machen Sprachassistenten mit der Gemini Live API spĂźrbar natĂźrlicher, individueller und vielseitiger als bisher.