Die Welt der KI
Eine Zusammenfassung von Roland Stand 11.06.2025
ElevenLabs v3: Das steckt hinter ElevenLab 3
ElevenLabs v3 (auch âEleven v3â genannt) ist das neueste und bislang ausdrucksstärkste Text-to-Speech-Modell von ElevenLabs, das Anfang Juni 2025 als Alpha-Version verĂśffentlicht wurde.
Wichtige Neuerungen und Funktionen:
- Ausdrucksstärke & Emotionen: Mit v3 lassen sich Stimmen mit einer bislang unerreichten emotionalen Tiefe erzeugen. Das Modell versteht und interpretiert subtile, im Text eingebettete emotionale Hinweise und kann diese realistisch wiedergeben. Dazu gehÜren Emotionen wie Flßstern, Seufzen, Lachen oder auch verschiedene Stimmungen wie Freude, Wut oder Traurigkeit.
- Audio Tags: Neu ist ein umfangreiches Tag-System. Mit sogenannten âAudio Tagsâ kannst du direkt im Text steuern, wie ein Satz gesprochen werden soll, z.B. [whispers], [shouts], [laughs]. Diese Tags ermĂśglichen eine sehr feine Kontrolle Ăźber Tonfall, Emotion und Timing.
- Dialogmodus: Mit der âAdd Speakerâ-Funktion kannst du nun echte, natĂźrliche Dialoge zwischen mehreren Stimmen erzeugen. Das Modell erkennt Sprecherwechsel, unterbricht sich gegenseitig und erzeugt so flĂźssige, authentische Gespräche â ideal fĂźr HĂśrspiele, Podcasts oder Videos.
- 70+ Sprachen: Die Sprachauswahl wurde massiv erweitert â v3 unterstĂźtzt jetzt mehr als 70 Sprachen und deckt damit etwa 90 % der WeltbevĂślkerung ab.
- Einfache Bedienung: Die Einstellungen wurden vereinfacht: Statt vieler Regler gibt es jetzt einen Schieberegler, mit dem du zwischen âNeutralâ, âKreativâ und âRobustâ wählen kannst. Damit passt du die Ausdrucksstärke der Stimme an deinen Einsatzzweck an.
- Nutzung und Preis: Das Modell läuft aktuell als Alpha mit 80 % Rabatt fßr Selbstnutzer bis Ende Juni 2025. Die Nutzung ist bereits ßber die ElevenLabs-Webseite mÜglich, eine Üffentliche API ist in Vorbereitung.
- Einschränkungen: Fßr Echtzeit- oder Live-Anwendungen empfiehlt ElevenLabs weiterhin die Vorgängerversion (v2.5 Turbo oder Flash), da v3 aktuell noch nicht fßr Echtzeit optimiert ist.
Typische Anwendungsfälle:
- HĂśrbĂźcher, Voice-over, Content Creation, Dialoge in Videos, Podcasts, Social Media Clips, Games und vieles mehr.
Fazit:
ElevenLabs v3 hebt KI-Text-to-Speech auf ein neues Level: Mehr Ausdruck, mehr Kontrolle, mehr Sprachen â und besonders fĂźr kreative Projekte und realistische Dialoge ein echter Fortschritt.
ElevenLabs V3
V3 ausprobieren: Eleven v3 (alpha) â Das ausdrucksstärkste Text to Speech Modell
ElevenLabs Website:Â https://elevenlabs.io/de
Gemini 2.5 Pro âGoldmaneâ: Ăberblick und Funktionen
Gemini 2.5 Pro (Codename âGoldmaneâ) ist das aktuelle Spitzenmodell der Gemini-KI-Reihe von Google und wurde im FrĂźhjahr 2025 verĂśffentlicht. Es gilt als deutlicher Fortschritt gegenĂźber den Vorgängerversionen und richtet sich an professionelle Nutzer, Unternehmen sowie Kreative.
Wichtige Neuerungen und Eigenschaften:
- Deutlich verbesserte Genauigkeit: Im Vergleich zu frĂźheren Versionen hat Gemini 2.5 Pro die Fehlerquote bei Benchmarks wie Aider Polygot drastisch reduziert. Das Modell erreicht laut aktuellen Tests eine Genauigkeit von 86,2âŻ%, was einen Sprung von Ăźber 13 Prozentpunkten gegenĂźber dem Vorgänger bedeutet. Damit werden etwa halb so viele Fehler gemacht wie zuvor â ein groĂer Fortschritt fĂźr anspruchsvolle Aufgaben wie Programmierung und Recherche.
- Multimodale Fähigkeiten: Gemini 2.5 Pro kann nicht nur Text, sondern auch Audio, Bilder und Videos verarbeiten. Das Modell eignet sich somit fßr vielseitige Anwendungsfälle wie Inhaltsanalyse, Zusammenfassungen, Social-Media-Content und sogar App-Entwicklung ohne Programmierkenntnisse.
- Deep Research: Mit dem âDeep Researchâ-Feature lassen sich besonders grĂźndliche, quellenbasierte Recherchen durchfĂźhren. Die Antworten sind umfangreich, gut belegt und fĂźr komplexe Wissensfragen geeignet â allerdings kann die Bearbeitung bis zu zehn Minuten dauern.
- Schnelle und präzise Antworten: FĂźr einfache Fragen oder schnelle AuskĂźnfte gibt es die Variante âGemini 2.5 Flashâ, die besonders kurze Antwortzeiten bietet, dabei aber weniger tiefgehend ist.
- Automatisierte Content-Erstellung: Gemini 2.5 Pro kann lange Meetings oder Videos automatisch zusammenfassen, Social-Media-Posts generieren, YouTube-Shorts-Skripte erstellen und sogar interaktive Apps und Tools bauen â alles ohne Programmieraufwand.
- Praktische Integration: Das Modell ist ßber Google AI Studio und Gemini Advanced verfßgbar und lässt sich in bestehende Workflows integrieren.
Einschätzung und Kritik:
- Gemini 2.5 Pro wird als groĂer Schritt nach vorne bewertet, vor allem bei Genauigkeit und Funktionsumfang. Die Halluzinationsrate ist gesunken, aber nicht vollständig beseitigt â bei Unsicherheiten kann das Modell weiterhin ungenaue Aussagen machen.
- Das Premium-Abo fĂźr Gemini Advanced kostet 21,99âŻEuro pro Monat und wird von einigen Nutzern als teuer empfunden.
- Die Integration in Smart-Home-Geräte und Wearables ist noch nicht vollständig abgeschlossen; hier gibt es weiterhin Einschränkungen.
Fazit:
Gemini 2.5 Pro âGoldmaneâ ist ein leistungsstarkes, vielseitiges KI-Modell mit deutlichen Verbesserungen bei Genauigkeit, Multimodalität und Automatisierung. Besonders fĂźr professionelle Anwendungen, Content-Erstellung und tiefgehende Recherchen ist es ein echter Fortschritt â auch wenn der Preis und die Integration in den Google-Kosmos noch nicht fĂźr alle Nutzer optimal sind.
Gemini 2.5 Pro âGoldmaneâ
AnkĂźndigung:Â https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
Luma Modify Video: KI-gestĂźtzte Videobearbeitung auf neuem Level
Luma Modify Video ist ein innovatives KI-Tool von Luma Labs, das es ermĂśglicht, bestehende Videos umfassend zu verändern â von subtilen Anpassungen bis hin zu kompletten Neugestaltungen. Das Besondere: Die originale Bewegung, Mimik und Kameradynamik bleiben erhalten, während Stil, Umgebung oder einzelne Elemente nach Wunsch angepasst werden kĂśnnen.
Kernfunktionen und MĂśglichkeiten:
- Komplette Umgestaltung ohne Nachdrehs: Du kannst das Setting, den Stil oder sogar ganze Charaktere verändern, ohne das Video neu zu drehen oder aufwändig zu animieren. So wird aus einer Alltagsszene eine Fantasy-Welt, ein Outfit-Wechsel oder eine neue Lichtstimmung â alles KI-gesteuert und ohne Greenscreen.
- Präzise Steuerung: Die KI erkennt und erhält Bewegungen, GesichtsausdrĂźcke und die Struktur der Szene. Ănderungen lassen sich per Textprompt, Referenzbild oder durch Auswahl eines Einzelbilds steuern. Die Bedienung ist dabei so einfach wie ein Gespräch mit einem Cutter.
- Drei Bearbeitungsmodi:
- Adhere: FĂźr subtile Anpassungen wie Texturen oder Licht, sehr nah am Original.
- Flex: Fßr spßrbare Stiländerungen bei Erhalt der wichtigsten Elemente.
- Reimagine: FĂźr maximale kreative Freiheit, z.B. Verwandlung von Menschen in Fantasiewesen oder komplette Szenenwechsel.
- Elemente gezielt bearbeiten: Kleidung, Requisiten, HintergrĂźnde oder Effekte lassen sich separat verändern, ohne den Rest des Videos zu beeinflussen. Auch komplexe Aufgaben wie das Altern von Figuren oder das Austauschen von Objekten sind mĂśglich â ohne Maskierung oder Frame-by-Frame-Arbeit.
- Motion & Performance Transfer: Bewegungen, Choreografien oder Mimik aus beliebigen Videos lassen sich extrahieren und auf andere Szenen oder Charaktere Ăźbertragen.
- Textbasierte Bedienung: Beschreibe einfach, was Du verändern mĂśchtest â die KI setzt es visuell um. Beispiele: âGib dem Video einen Anime-Lookâ, âMache die Szene neblig und kĂźhlerâ, âTausche das rote Auto gegen ein blaues Fahrradâ.
- Schnelle Ergebnisse: Was frĂźher Tage an VFX-Arbeit bedeutete, ist jetzt in Minuten erledigt â inklusive Export und Weiterbearbeitung.
- Technische Details: Unterstßtzt Videos bis zu 10 Sekunden, idealerweise mit stabiler Kamera und sauberem Hintergrund fßr beste Resultate. Die Bearbeitung läuft aktuell ßber das Web mit Dream Machine-Abo, iOS folgt bald.
Fazit:
Luma Modify Video hebt KI-Videobearbeitung auf ein neues Level: Du kannst Deine kreative Vision in Worte fassen â die KI setzt sie um, ohne die Dynamik und Qualität des Originals zu verlieren. Das Tool eignet sich fĂźr Fotografen, Filmemacher, Content Creator und alle, die Videos flexibel und professionell transformieren mĂśchten.
Luma Modify Video
Luma Website:Â https://lumalabs.ai
Veo 3 Fast: Das neue Turbo-Upgrade fĂźr Googles KI-Videogenerator
Veo 3 Fast ist die beschleunigte Version von Googles KI-Videomodell Veo 3 und wurde im Juni 2025 vorgestellt. Ziel ist es, die Erstellung von KI-generierten Videos deutlich schneller und gĂźnstiger zu machen â bei gleichbleibender Qualität.
Die wichtigsten Fakten zu Veo 3 Fast:
- Mehr als doppelt so schnell: Veo 3 Fast generiert Videos mehr als doppelt so schnell wie die Standardversion von Veo 3. Die typische Generierungszeit fĂźr einen 8-Sekunden-Clip sinkt um etwa 30âŻ%, sodass Ideen und Konzepte nahezu in Echtzeit getestet werden kĂśnnen.
- Gleiche Qualität: Die VideoauflĂśsung bleibt bei 720p, es gibt keine EinbuĂen bei der visuellen Qualität oder beim Audio.
- Native Audio-Integration: Veo 3 Fast erzeugt Videos mit synchronisiertem Ton â inklusive Dialog, Umgebungsgeräuschen und Soundeffekten. Damit entfällt aufwändiges Nachvertonen oder Lip-Sync.
- Deutlich gĂźnstiger: Ein Video im Fast-Modus kostet nur 20 Credits (statt 150 im Standardmodus) â das entspricht einer Kostenersparnis von 80âŻ%. Nutzer kĂśnnen im Ultra-Plan bis zu 625 Clips pro Monat generieren.
- FĂźr wen ist Veo 3 Fast gedacht? Ideal fĂźr Kreative, Marketer, Lehrende und alle, die viele Ideen schnell testen oder Prototypen mit Ton und Bild erstellen mĂśchten.
- Zugang & Nutzung: Veo 3 Fast ist in den USA bereits Ăźber die Gemini App und die Filmmaking-Plattform Flow verfĂźgbar. Gemini Pro-Nutzer erhalten drei Fast-Generierungen pro Tag, Flow Pro-Nutzer zahlen 20 Credits pro Video. In Europa und Deutschland ist Veo 3 Fast noch nicht verfĂźgbar, Google arbeitet jedoch an einer LĂśsung.
- Funktionsumfang: Aktuell wird Text-zu-Video unterstßtzt, Bild-zu-Video ist in Entwicklung. Die KI kann kßnstlerische Stile, Charakterdesigns und Kamerafßhrung konsistent umsetzen. Fßr hÜchste Produktionsqualität (4K, komplexe Physik) empfiehlt sich weiterhin der Standardmodus.
Fazit:
Veo 3 Fast macht Googles KI-Videogenerierung massentauglich: schneller, gĂźnstiger, mit nativer Audioausgabe und ideal fĂźr schnelle Iterationen. FĂźr professionelle Endproduktionen bleibt der Standardmodus relevant, aber fĂźr Prototyping, Storyboarding und kreative Experimente ist Veo 3 Fast ein echter Gamechanger. In Europa heiĂt es noch abwarten â der Start wird aber erwartet.
Veo 3 Fast
Beispiele:Â https://x.com/fofrAI/status/1931472803053576659
Cursor Version 1.0: Die wichtigsten Neuerungen
Cursor 1.0 ist die erste stabile Hauptversion des KI-Codeeditors Cursor und bringt zahlreiche neue Funktionen und Verbesserungen.
Hauptfeatures von Cursor 1.0:
- BugBot fĂźr automatischen Code-Review:
BugBot prßft automatisch Pull Requests (PRs) auf Fehler und Probleme. Bei gefundenen Fehlern hinterlässt BugBot Kommentare direkt im PR, sodass du schnell reagieren und die Korrektur im Editor starten kannst.
- Background Agent fĂźr alle Nutzer:
Der Background Agent ist ein KI-gesteuerter, ferngesteuerter Coding-Agent, der Code in einer Remote-Umgebung bearbeiten kann. Er kann ein GitHub-Repository klonen, auf einem eigenen Branch arbeiten und Ănderungen pushen. Die Funktion ist jetzt fĂźr alle Nutzer verfĂźgbar.
- Jupyter-Notebook-UnterstĂźtzung:
Cursor kann jetzt direkt Ănderungen in Jupyter Notebooks vornehmen und mehrere Zellen automatisch erstellen oder bearbeiten. Dies ist besonders fĂźr Data Science und Forschung nĂźtzlich.
- Memories (Beta):
Mit âMemoriesâ kann sich Cursor projektbezogen Fakten und Anweisungen aus bisherigen Chats merken und diese später wieder nutzen. Die Verwaltung erfolgt in den Einstellungen.
- MCP-One-Click-Install und OAuth:
MCP-Server (Model Context Protocol) lassen sich jetzt mit einem Klick in Cursor integrieren. Die Authentifizierung Ăźber OAuth wird unterstĂźtzt, was die Anbindung externer Tools wie GitHub, Figma, Notion, Stripe und Playwright erleichtert.
- Richer Chat Responses:
Cursor kann jetzt Visualisierungen wie Mermaid-Diagramme und Markdown-Tabellen direkt im Chat anzeigen.
- Neues Dashboard und Einstellungen:
Das Dashboard wurde Ăźberarbeitet. Es zeigt jetzt Nutzungsstatistiken fĂźr Einzelpersonen und Teams, ermĂśglicht das Ăndern des Anzeigenamens und bietet detaillierte Auswertungen nach Tool oder Modell.
- Weitere Verbesserungen:
Sicherheitshinweis:
Der Background Agent hat umfassende Zugriffsrechte auf Repositories und kann automatisiert Befehle ausfĂźhren. Damit steigt das Risiko fĂźr Angriffe wie Prompt Injection. Die Infrastruktur wurde bisher noch nicht von Dritten auditiert.
Fazit:
Cursor 1.0 ist ein mächtiger KI-Codeeditor, der mit BugBot, Background Agent, Jupyter-Support, Memories und vielen weiteren Features einen groĂen Schritt in Richtung automatisierte und intelligente Softwareentwicklung macht.
Cursor Version 1.0
Cursor Website:Â https://www.cursor.com
Open Source Deep Research: Ăberblick und aktuelle Projekte
Was ist Deep Research?
Deep Research bezeichnet eine neue Generation von KI-gestĂźtzten Recherche-Agenten, die komplexe, mehrstufige Fragestellungen durch strukturierte Websuche, Analyse und Synthese von Informationen beantworten. Im Gegensatz zur klassischen Suche liefern diese Systeme keine Linklisten, sondern ausfĂźhrliche, zitierte Berichte und Analysen.
Wichtige Open-Source-Projekte und Frameworks
1. Together AI â Open Deep Research
- Together AI hat mit âOpen Deep Researchâ ein quelloffenes KI-Tool verĂśffentlicht, das komplexe Fragen in vier Schritten bearbeitet: Planung der Suchanfragen, Sammeln von Inhalten, LĂźckenanalyse und Verfassen eines strukturierten Berichts.
- Die Architektur kombiniert spezialisierte Open-Source-Modelle (z.B. Qwen2.5, Llama-3, DeepSeek-V3) und ist vollständig offen fßr die Community.
- Ziel ist, nicht nur kurze Antworten, sondern umfassende, gut belegte Reports zu liefern â ähnlich wie OpenAI Deep Research, aber mit offenem Code, eigenen Datensätzen und frei wählbarer Infrastruktur.
2. Deep-Research (dzhng)
- Ein iterativer Recherche-Agent, der Suchanfragen generiert, Webseiten durchsucht und die Inhalte mit einem Reasoning-Modell (z.B. o3-mini) verarbeitet.
- Vollständig Open Source, flexibel anpassbar und fßr eigene Workflows nutzbar.
3. OpenDeepResearcher
- Asynchroner KI-Agent, der mit mehreren Suchmaschinen und Content-Extraktoren arbeitet und verschiedene Open-Source-LLMs fĂźr die Analyse nutzt.
- ErmĂśglicht detaillierte, iterative Recherchen und kann individuell erweitert werden.
4. Open Deep Research by Firecrawl
- Ein leichtgewichtiges Framework, das Firecrawl fĂźr Suche und Extraktion nutzt und beliebige LLMs fĂźr die eigentliche Analyse einbindet.
- Besonders geeignet fĂźr Selbst-Hosting und individuelle Anpassungen.
5. DeepResearch von Jina AI
- Repliziert den Workflow von OpenAI Deep Research mit Integration verschiedener Suchmaschinen und fortschrittlicher KI-Modelle.
- Starke Fokussierung auf Kontextverständnis, Extraktion und Zusammenfassung relevanter Inhalte.
Technische Prinzipien und Trends
- Agentic Frameworks: Open-Source-Deep-Research-Projekte setzen auf Agenten, die LLMs mit Tool-Use (z.B. Websuche, PDF-Analyse) kombinieren und ihre Aktionen in Schritten organisieren. Dadurch lassen sich komplexe Rechercheaufgaben automatisieren und die Leistungsfähigkeit der LLMs gezielt erweitern.
- Modularität: Die meisten Open-Source-LÜsungen sind modular aufgebaut, sodass verschiedene Modelle, Datenquellen und Extraktionsmethoden flexibel kombiniert werden kÜnnen.
- Multimodalität: Neue Frameworks unterstßtzen zunehmend auch die Verarbeitung von Bildern, PDFs, Audio und Video, nicht mehr nur Text.
- Lokale AusfĂźhrung: Viele Projekte kĂśnnen komplett lokal laufen, was Datenschutz und Anpassbarkeit erhĂśht.
Fazit
Open Source Deep Research ist ein dynamisch wachsendes Feld: Es gibt bereits mehrere leistungsfähige, frei verfĂźgbare Alternativen zu proprietären Systemen wie OpenAI Deep Research. Sie ermĂśglichen automatisierte, mehrstufige Rechercheprozesse mit ausfĂźhrlichen, belegten Berichten â und lassen sich flexibel an eigene Anforderungen anpassen. Besonders hervorzuheben sind Together AI Open Deep Research, Deep-Research, OpenDeepResearcher, Firecrawl und Jina AI DeepResearch. Die Entwicklung geht rasant weiter, mit Fokus auf Flexibilität, Multimodalität und Selbst-Hosting.
Open Source Deep Research
Github:Â https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
Bing Video: Kostenloser KI-Video-Generator von Microsoft
Bing Video Creator ist ein neues, kostenloses KI-Tool von Microsoft, das es ermÜglicht, aus einfachen Texteingaben kurze Videos zu generieren. Die Funktion basiert auf OpenAI Sora und ist seit Juni 2025 zunächst in der Bing-App fßr iOS und Android verfßgbar.
Wichtige Funktionen und Eigenschaften:
- Text-zu-Video: Nutzer geben eine Beschreibung ein, und die KI erstellt daraus ein kurzes Video. Zum Beispiel: âIn einer belebten italienischen Pizzeria arbeitet ein Otter als Koch.â
- Länge und Format: Die Videos sind aktuell 5 Sekunden lang und werden im Hochformat (9:16) generiert. Ein Querformat (16:9) ist in Vorbereitung.
- Einfache Bedienung: Die Funktion ist direkt in der Bing-App unter âVideo Creatorâ zu finden oder kann Ăźber die Suchleiste mit einem Prompt wie âCreate a video of...â genutzt werden.
- Kostenlos: Die ersten zehn schnellen Video-Generierungen sind gratis. Danach kann man mit Microsoft Rewards-Punkten weitere schnelle Generierungen freischalten oder auf den Standardmodus umsteigen.
- Benachrichtigung und Download: Nach Fertigstellung erhält man eine Benachrichtigung, kann das Video herunterladen, teilen oder einen Link generieren. Die Videos bleiben 90 Tage gespeichert.
- Drei Videos gleichzeitig: Es lassen sich bis zu drei Videos gleichzeitig in die Warteschlange stellen.
- Zielgruppe: Besonders geeignet fĂźr Content Creator, Social-Media-Posts, Marketing, Bildung und alle, die schnell visuelle Ideen umsetzen wollen.
- Desktop-Version: Eine Version fĂźr den Desktop und die Integration in Copilot Search sind angekĂźndigt und folgen in KĂźrze.
Fazit:
Bing Video Creator macht KI-Videoerstellung fĂźr alle zugänglich â kostenlos, einfach und direkt Ăźber die Bing-App. Die kurze Videolänge und intuitive Bedienung eignen sich besonders fĂźr schnelle, kreative Clips fĂźr Social Media und Marketing. Die Integration von Sora hebt die Qualität auf ein neues Level und bietet erstmals kostenlose Video-KI fĂźr die breite Ăffentlichkeit.
Bing Video
AnkĂźndigung:Â https://blogs.bing.com/search/June-2025/Introducing-Bing-Video-Creator?form=M30190&OCID=M30190