1000+ Fünf-Sterne-Bewertungen und Top-Auszeichnungen machen uns zu einer der gefragtesten Lernplattformen.

maschke academy blog

Wissen. Technik. Kreativität.

Der offizielle Blog der Maschke Akademie: Updates, Tutorials und Insights aus der Welt der digitalen Bildbearbeitung, KI und visuellen Medien.

← Zurück zur Übersicht

Künstliche Intelligenz 28.03.2026

Gemini 3.1 Flash Live: Google verbessert sein Audio-Modell

Gemini 3.1 Flash Live

ist Googles bislang fortschrittlichstes Audio‑ und Sprachmodell und soll Unterhaltungen mit Gemini Live sowie der neuen Search‑Live‑Suche deutlich natürlicher, schneller und stabiler machen.

Verbesserungen beim Audio‑Verständnis

Das Modell reagiert sensibler auf Tonfall, Betonung, Sprechtempo und Pausen, wodurch Antworten hörbarer dialogischer und weniger „robotisch“ wirken.
Störende Umgebungsgeräusche wie Verkehr oder Hintergrundmedien werden besser unterdrückt, während die eigentliche Spracherkennung zuverlässiger funktioniert – gerade unterwegs ein Plus.

Latenz, Länge und Sprachen

Antwortzeiten wurden spürbar reduziert, sodass Gespräche nahezu in Echtzeit ablaufen können.
Der abrufbare Kontext ist deutlich gewachsen, was längere Sessions wie Support‑Calls oder Brainstormings erlaubt, ohne dass die KI ständig „den Faden verliert“.
Echtzeit‑Dialoge sind in über 90 Sprachen möglich, inklusive fließender Sprachwechsel innerhalb derselben Unterhaltung.

Einsatz in Gemini Live, Search Live und per API

In der Praxis läuft Gemini 3.1 Flash Live nun u.a. unter der Haube von Gemini Live in der App und von Search Live in der Google‑Suche und verbessert dort Stimmqualität und Gesprächsfluss.
Über die Gemini‑Live‑API können Entwickler eigene Voice‑Assistenten bauen – mit Audio‑Ein‑/Ausgabe in Echtzeit, Tool‑Anbindung und Sitzungsverwaltung für längere Dialoge.

Für welche Use‑Cases gedacht

Zielanwendungen sind vor allem Voice‑First‑Szenarien wie Assistenten, Hotline‑ oder Support‑Bots, Lern‑ und Coaching‑Tools, In‑Car‑Systeme und kreative Brainstorming‑Setups, in denen natürliche Sprache, geringe Verzögerung und robuste Aufgabenbearbeitung entscheidend sind.