1000+ FĂźnf-Sterne-Bewertungen und Top-Auszeichnungen machen uns zu einer der gefragtesten Lernplattformen.
maschke academy blog

Wissen. Technik. Kreativität.

Der offizielle Blog der Maschke Akademie: Updates, Tutorials und Insights aus der Welt der digitalen Bildbearbeitung, KI und visuellen Medien.
Die Welt der KI. Was gibt es neues ? Eine Zusammenfassung.
KĂźnstliche Intelligenz 11.06.2025

Die Welt der KI. Was gibt es neues ? Eine Zusammenfassung.

Die Welt der KI

Eine Zusammenfassung von Roland Stand 11.06.2025

ElevenLabs v3: Das steckt hinter ElevenLab 3

ElevenLabs v3 (auch „Eleven v3“ genannt) ist das neueste und bislang ausdrucksstärkste Text-to-Speech-Modell von ElevenLabs, das Anfang Juni 2025 als Alpha-Version veröffentlicht wurde.

Wichtige Neuerungen und Funktionen:

  • Ausdrucksstärke & Emotionen: Mit v3 lassen sich Stimmen mit einer bislang unerreichten emotionalen Tiefe erzeugen. Das Modell versteht und interpretiert subtile, im Text eingebettete emotionale Hinweise und kann diese realistisch wiedergeben. Dazu gehĂśren Emotionen wie FlĂźstern, Seufzen, Lachen oder auch verschiedene Stimmungen wie Freude, Wut oder Traurigkeit.
  • Audio Tags: Neu ist ein umfangreiches Tag-System. Mit sogenannten „Audio Tags“ kannst du direkt im Text steuern, wie ein Satz gesprochen werden soll, z.B. [whispers], [shouts], [laughs]. Diese Tags ermĂśglichen eine sehr feine Kontrolle Ăźber Tonfall, Emotion und Timing.
  • Dialogmodus: Mit der „Add Speaker“-Funktion kannst du nun echte, natĂźrliche Dialoge zwischen mehreren Stimmen erzeugen. Das Modell erkennt Sprecherwechsel, unterbricht sich gegenseitig und erzeugt so flĂźssige, authentische Gespräche – ideal fĂźr HĂśrspiele, Podcasts oder Videos.
  • 70+ Sprachen: Die Sprachauswahl wurde massiv erweitert – v3 unterstĂźtzt jetzt mehr als 70 Sprachen und deckt damit etwa 90 % der WeltbevĂślkerung ab.
  • Einfache Bedienung: Die Einstellungen wurden vereinfacht: Statt vieler Regler gibt es jetzt einen Schieberegler, mit dem du zwischen „Neutral“, „Kreativ“ und „Robust“ wählen kannst. Damit passt du die Ausdrucksstärke der Stimme an deinen Einsatzzweck an.
  • Nutzung und Preis: Das Modell läuft aktuell als Alpha mit 80 % Rabatt fĂźr Selbstnutzer bis Ende Juni 2025. Die Nutzung ist bereits Ăźber die ElevenLabs-Webseite mĂśglich, eine Ăśffentliche API ist in Vorbereitung.
  • Einschränkungen: FĂźr Echtzeit- oder Live-Anwendungen empfiehlt ElevenLabs weiterhin die Vorgängerversion (v2.5 Turbo oder Flash), da v3 aktuell noch nicht fĂźr Echtzeit optimiert ist.

Typische Anwendungsfälle:

  • HĂśrbĂźcher, Voice-over, Content Creation, Dialoge in Videos, Podcasts, Social Media Clips, Games und vieles mehr.

Fazit:
ElevenLabs v3 hebt KI-Text-to-Speech auf ein neues Level: Mehr Ausdruck, mehr Kontrolle, mehr Sprachen – und besonders für kreative Projekte und realistische Dialoge ein echter Fortschritt.

ElevenLabs V3

V3 ausprobieren: Eleven v3 (alpha) — Das ausdrucksstärkste Text to Speech Modell ElevenLabs Website: https://elevenlabs.io/de


Gemini 2.5 Pro „Goldmane“: Überblick und Funktionen

Gemini 2.5 Pro (Codename „Goldmane“) ist das aktuelle Spitzenmodell der Gemini-KI-Reihe von Google und wurde im Frühjahr 2025 veröffentlicht. Es gilt als deutlicher Fortschritt gegenüber den Vorgängerversionen und richtet sich an professionelle Nutzer, Unternehmen sowie Kreative.

Wichtige Neuerungen und Eigenschaften:

  • Deutlich verbesserte Genauigkeit: Im Vergleich zu frĂźheren Versionen hat Gemini 2.5 Pro die Fehlerquote bei Benchmarks wie Aider Polygot drastisch reduziert. Das Modell erreicht laut aktuellen Tests eine Genauigkeit von 86,2 %, was einen Sprung von Ăźber 13 Prozentpunkten gegenĂźber dem Vorgänger bedeutet. Damit werden etwa halb so viele Fehler gemacht wie zuvor – ein großer Fortschritt fĂźr anspruchsvolle Aufgaben wie Programmierung und Recherche.
  • Multimodale Fähigkeiten: Gemini 2.5 Pro kann nicht nur Text, sondern auch Audio, Bilder und Videos verarbeiten. Das Modell eignet sich somit fĂźr vielseitige Anwendungsfälle wie Inhaltsanalyse, Zusammenfassungen, Social-Media-Content und sogar App-Entwicklung ohne Programmierkenntnisse.
  • Deep Research: Mit dem „Deep Research“-Feature lassen sich besonders grĂźndliche, quellenbasierte Recherchen durchfĂźhren. Die Antworten sind umfangreich, gut belegt und fĂźr komplexe Wissensfragen geeignet – allerdings kann die Bearbeitung bis zu zehn Minuten dauern.
  • Schnelle und präzise Antworten: FĂźr einfache Fragen oder schnelle AuskĂźnfte gibt es die Variante „Gemini 2.5 Flash“, die besonders kurze Antwortzeiten bietet, dabei aber weniger tiefgehend ist.
  • Automatisierte Content-Erstellung: Gemini 2.5 Pro kann lange Meetings oder Videos automatisch zusammenfassen, Social-Media-Posts generieren, YouTube-Shorts-Skripte erstellen und sogar interaktive Apps und Tools bauen – alles ohne Programmieraufwand.
  • Praktische Integration: Das Modell ist Ăźber Google AI Studio und Gemini Advanced verfĂźgbar und lässt sich in bestehende Workflows integrieren.

Einschätzung und Kritik:

  • Gemini 2.5 Pro wird als großer Schritt nach vorne bewertet, vor allem bei Genauigkeit und Funktionsumfang. Die Halluzinationsrate ist gesunken, aber nicht vollständig beseitigt – bei Unsicherheiten kann das Modell weiterhin ungenaue Aussagen machen.
  • Das Premium-Abo fĂźr Gemini Advanced kostet 21,99 Euro pro Monat und wird von einigen Nutzern als teuer empfunden.
  • Die Integration in Smart-Home-Geräte und Wearables ist noch nicht vollständig abgeschlossen; hier gibt es weiterhin Einschränkungen.

Fazit:
Gemini 2.5 Pro „Goldmane“ ist ein leistungsstarkes, vielseitiges KI-Modell mit deutlichen Verbesserungen bei Genauigkeit, Multimodalität und Automatisierung. Besonders für professionelle Anwendungen, Content-Erstellung und tiefgehende Recherchen ist es ein echter Fortschritt – auch wenn der Preis und die Integration in den Google-Kosmos noch nicht für alle Nutzer optimal sind.

Gemini 2.5 Pro „Goldmane“
Ankßndigung: https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/


Luma Modify Video: KI-gestĂźtzte Videobearbeitung auf neuem Level

Luma Modify Video ist ein innovatives KI-Tool von Luma Labs, das es ermöglicht, bestehende Videos umfassend zu verändern – von subtilen Anpassungen bis hin zu kompletten Neugestaltungen. Das Besondere: Die originale Bewegung, Mimik und Kameradynamik bleiben erhalten, während Stil, Umgebung oder einzelne Elemente nach Wunsch angepasst werden können.

Kernfunktionen und MĂśglichkeiten:

  • Komplette Umgestaltung ohne Nachdrehs: Du kannst das Setting, den Stil oder sogar ganze Charaktere verändern, ohne das Video neu zu drehen oder aufwändig zu animieren. So wird aus einer Alltagsszene eine Fantasy-Welt, ein Outfit-Wechsel oder eine neue Lichtstimmung – alles KI-gesteuert und ohne Greenscreen.
  • Präzise Steuerung: Die KI erkennt und erhält Bewegungen, GesichtsausdrĂźcke und die Struktur der Szene. Änderungen lassen sich per Textprompt, Referenzbild oder durch Auswahl eines Einzelbilds steuern. Die Bedienung ist dabei so einfach wie ein Gespräch mit einem Cutter.
  • Drei Bearbeitungsmodi:
    • Adhere: FĂźr subtile Anpassungen wie Texturen oder Licht, sehr nah am Original.
    • Flex: FĂźr spĂźrbare Stiländerungen bei Erhalt der wichtigsten Elemente.
    • Reimagine: FĂźr maximale kreative Freiheit, z.B. Verwandlung von Menschen in Fantasiewesen oder komplette Szenenwechsel.
  • Elemente gezielt bearbeiten: Kleidung, Requisiten, HintergrĂźnde oder Effekte lassen sich separat verändern, ohne den Rest des Videos zu beeinflussen. Auch komplexe Aufgaben wie das Altern von Figuren oder das Austauschen von Objekten sind mĂśglich – ohne Maskierung oder Frame-by-Frame-Arbeit.
  • Motion & Performance Transfer: Bewegungen, Choreografien oder Mimik aus beliebigen Videos lassen sich extrahieren und auf andere Szenen oder Charaktere Ăźbertragen.
  • Textbasierte Bedienung: Beschreibe einfach, was Du verändern mĂśchtest – die KI setzt es visuell um. Beispiele: „Gib dem Video einen Anime-Look“, „Mache die Szene neblig und kĂźhler“, „Tausche das rote Auto gegen ein blaues Fahrrad“.
  • Schnelle Ergebnisse: Was frĂźher Tage an VFX-Arbeit bedeutete, ist jetzt in Minuten erledigt – inklusive Export und Weiterbearbeitung.
  • Technische Details: UnterstĂźtzt Videos bis zu 10 Sekunden, idealerweise mit stabiler Kamera und sauberem Hintergrund fĂźr beste Resultate. Die Bearbeitung läuft aktuell Ăźber das Web mit Dream Machine-Abo, iOS folgt bald.

Fazit:
Luma Modify Video hebt KI-Videobearbeitung auf ein neues Level: Du kannst Deine kreative Vision in Worte fassen – die KI setzt sie um, ohne die Dynamik und Qualität des Originals zu verlieren. Das Tool eignet sich für Fotografen, Filmemacher, Content Creator und alle, die Videos flexibel und professionell transformieren möchten.

Luma Modify Video
Luma Website: https://lumalabs.ai


Veo 3 Fast: Das neue Turbo-Upgrade fĂźr Googles KI-Videogenerator

Veo 3 Fast ist die beschleunigte Version von Googles KI-Videomodell Veo 3 und wurde im Juni 2025 vorgestellt. Ziel ist es, die Erstellung von KI-generierten Videos deutlich schneller und günstiger zu machen – bei gleichbleibender Qualität.

Die wichtigsten Fakten zu Veo 3 Fast:

  • Mehr als doppelt so schnell: Veo 3 Fast generiert Videos mehr als doppelt so schnell wie die Standardversion von Veo 3. Die typische Generierungszeit fĂźr einen 8-Sekunden-Clip sinkt um etwa 30 %, sodass Ideen und Konzepte nahezu in Echtzeit getestet werden kĂśnnen.
  • Gleiche Qualität: Die VideoauflĂśsung bleibt bei 720p, es gibt keine Einbußen bei der visuellen Qualität oder beim Audio.
  • Native Audio-Integration: Veo 3 Fast erzeugt Videos mit synchronisiertem Ton – inklusive Dialog, Umgebungsgeräuschen und Soundeffekten. Damit entfällt aufwändiges Nachvertonen oder Lip-Sync.
  • Deutlich gĂźnstiger: Ein Video im Fast-Modus kostet nur 20 Credits (statt 150 im Standardmodus) – das entspricht einer Kostenersparnis von 80 %. Nutzer kĂśnnen im Ultra-Plan bis zu 625 Clips pro Monat generieren.
  • FĂźr wen ist Veo 3 Fast gedacht? Ideal fĂźr Kreative, Marketer, Lehrende und alle, die viele Ideen schnell testen oder Prototypen mit Ton und Bild erstellen mĂśchten.
  • Zugang & Nutzung: Veo 3 Fast ist in den USA bereits Ăźber die Gemini App und die Filmmaking-Plattform Flow verfĂźgbar. Gemini Pro-Nutzer erhalten drei Fast-Generierungen pro Tag, Flow Pro-Nutzer zahlen 20 Credits pro Video. In Europa und Deutschland ist Veo 3 Fast noch nicht verfĂźgbar, Google arbeitet jedoch an einer LĂśsung.
  • Funktionsumfang: Aktuell wird Text-zu-Video unterstĂźtzt, Bild-zu-Video ist in Entwicklung. Die KI kann kĂźnstlerische Stile, Charakterdesigns und KamerafĂźhrung konsistent umsetzen. FĂźr hĂśchste Produktionsqualität (4K, komplexe Physik) empfiehlt sich weiterhin der Standardmodus.

Fazit:
Veo 3 Fast macht Googles KI-Videogenerierung massentauglich: schneller, günstiger, mit nativer Audioausgabe und ideal für schnelle Iterationen. Für professionelle Endproduktionen bleibt der Standardmodus relevant, aber für Prototyping, Storyboarding und kreative Experimente ist Veo 3 Fast ein echter Gamechanger. In Europa heißt es noch abwarten – der Start wird aber erwartet.

Veo 3 Fast
Beispiele: https://x.com/fofrAI/status/1931472803053576659


Cursor Version 1.0: Die wichtigsten Neuerungen

Cursor 1.0 ist die erste stabile Hauptversion des KI-Codeeditors Cursor und bringt zahlreiche neue Funktionen und Verbesserungen.

Hauptfeatures von Cursor 1.0:

  • BugBot fĂźr automatischen Code-Review:
    BugBot prßft automatisch Pull Requests (PRs) auf Fehler und Probleme. Bei gefundenen Fehlern hinterlässt BugBot Kommentare direkt im PR, sodass du schnell reagieren und die Korrektur im Editor starten kannst.
  • Background Agent fĂźr alle Nutzer:
    Der Background Agent ist ein KI-gesteuerter, ferngesteuerter Coding-Agent, der Code in einer Remote-Umgebung bearbeiten kann. Er kann ein GitHub-Repository klonen, auf einem eigenen Branch arbeiten und Änderungen pushen. Die Funktion ist jetzt für alle Nutzer verfügbar.
  • Jupyter-Notebook-UnterstĂźtzung:
    Cursor kann jetzt direkt Änderungen in Jupyter Notebooks vornehmen und mehrere Zellen automatisch erstellen oder bearbeiten. Dies ist besonders für Data Science und Forschung nützlich.
  • Memories (Beta):
    Mit „Memories“ kann sich Cursor projektbezogen Fakten und Anweisungen aus bisherigen Chats merken und diese später wieder nutzen. Die Verwaltung erfolgt in den Einstellungen.
  • MCP-One-Click-Install und OAuth:
    MCP-Server (Model Context Protocol) lassen sich jetzt mit einem Klick in Cursor integrieren. Die Authentifizierung Ăźber OAuth wird unterstĂźtzt, was die Anbindung externer Tools wie GitHub, Figma, Notion, Stripe und Playwright erleichtert.
  • Richer Chat Responses:
    Cursor kann jetzt Visualisierungen wie Mermaid-Diagramme und Markdown-Tabellen direkt im Chat anzeigen.
  • Neues Dashboard und Einstellungen:
    Das Dashboard wurde überarbeitet. Es zeigt jetzt Nutzungsstatistiken für Einzelpersonen und Teams, ermöglicht das Ändern des Anzeigenamens und bietet detaillierte Auswertungen nach Tool oder Modell.
  • Weitere Verbesserungen:

Sicherheitshinweis:
Der Background Agent hat umfassende Zugriffsrechte auf Repositories und kann automatisiert Befehle ausfĂźhren. Damit steigt das Risiko fĂźr Angriffe wie Prompt Injection. Die Infrastruktur wurde bisher noch nicht von Dritten auditiert.

Fazit:
Cursor 1.0 ist ein mächtiger KI-Codeeditor, der mit BugBot, Background Agent, Jupyter-Support, Memories und vielen weiteren Features einen großen Schritt in Richtung automatisierte und intelligente Softwareentwicklung macht.

Cursor Version 1.0

Cursor Website: https://www.cursor.com


Open Source Deep Research: Überblick und aktuelle Projekte

Was ist Deep Research? Deep Research bezeichnet eine neue Generation von KI-gestĂźtzten Recherche-Agenten, die komplexe, mehrstufige Fragestellungen durch strukturierte Websuche, Analyse und Synthese von Informationen beantworten. Im Gegensatz zur klassischen Suche liefern diese Systeme keine Linklisten, sondern ausfĂźhrliche, zitierte Berichte und Analysen.

Wichtige Open-Source-Projekte und Frameworks

1. Together AI – Open Deep Research

  • Together AI hat mit „Open Deep Research“ ein quelloffenes KI-Tool verĂśffentlicht, das komplexe Fragen in vier Schritten bearbeitet: Planung der Suchanfragen, Sammeln von Inhalten, LĂźckenanalyse und Verfassen eines strukturierten Berichts.
  • Die Architektur kombiniert spezialisierte Open-Source-Modelle (z.B. Qwen2.5, Llama-3, DeepSeek-V3) und ist vollständig offen fĂźr die Community.
  • Ziel ist, nicht nur kurze Antworten, sondern umfassende, gut belegte Reports zu liefern – ähnlich wie OpenAI Deep Research, aber mit offenem Code, eigenen Datensätzen und frei wählbarer Infrastruktur.

2. Deep-Research (dzhng)

  • Ein iterativer Recherche-Agent, der Suchanfragen generiert, Webseiten durchsucht und die Inhalte mit einem Reasoning-Modell (z.B. o3-mini) verarbeitet.
  • Vollständig Open Source, flexibel anpassbar und fĂźr eigene Workflows nutzbar.

3. OpenDeepResearcher

  • Asynchroner KI-Agent, der mit mehreren Suchmaschinen und Content-Extraktoren arbeitet und verschiedene Open-Source-LLMs fĂźr die Analyse nutzt.
  • ErmĂśglicht detaillierte, iterative Recherchen und kann individuell erweitert werden.

4. Open Deep Research by Firecrawl

  • Ein leichtgewichtiges Framework, das Firecrawl fĂźr Suche und Extraktion nutzt und beliebige LLMs fĂźr die eigentliche Analyse einbindet.
  • Besonders geeignet fĂźr Selbst-Hosting und individuelle Anpassungen.

5. DeepResearch von Jina AI

  • Repliziert den Workflow von OpenAI Deep Research mit Integration verschiedener Suchmaschinen und fortschrittlicher KI-Modelle.
  • Starke Fokussierung auf Kontextverständnis, Extraktion und Zusammenfassung relevanter Inhalte.

Technische Prinzipien und Trends

  • Agentic Frameworks: Open-Source-Deep-Research-Projekte setzen auf Agenten, die LLMs mit Tool-Use (z.B. Websuche, PDF-Analyse) kombinieren und ihre Aktionen in Schritten organisieren. Dadurch lassen sich komplexe Rechercheaufgaben automatisieren und die Leistungsfähigkeit der LLMs gezielt erweitern.
  • Modularität: Die meisten Open-Source-LĂśsungen sind modular aufgebaut, sodass verschiedene Modelle, Datenquellen und Extraktionsmethoden flexibel kombiniert werden kĂśnnen.
  • Multimodalität: Neue Frameworks unterstĂźtzen zunehmend auch die Verarbeitung von Bildern, PDFs, Audio und Video, nicht mehr nur Text.
  • Lokale AusfĂźhrung: Viele Projekte kĂśnnen komplett lokal laufen, was Datenschutz und Anpassbarkeit erhĂśht.

Fazit

Open Source Deep Research ist ein dynamisch wachsendes Feld: Es gibt bereits mehrere leistungsfähige, frei verfügbare Alternativen zu proprietären Systemen wie OpenAI Deep Research. Sie ermöglichen automatisierte, mehrstufige Rechercheprozesse mit ausführlichen, belegten Berichten – und lassen sich flexibel an eigene Anforderungen anpassen. Besonders hervorzuheben sind Together AI Open Deep Research, Deep-Research, OpenDeepResearcher, Firecrawl und Jina AI DeepResearch. Die Entwicklung geht rasant weiter, mit Fokus auf Flexibilität, Multimodalität und Selbst-Hosting.

Open Source Deep Research
Github: https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart


Bing Video: Kostenloser KI-Video-Generator von Microsoft

Bing Video Creator ist ein neues, kostenloses KI-Tool von Microsoft, das es ermÜglicht, aus einfachen Texteingaben kurze Videos zu generieren. Die Funktion basiert auf OpenAI Sora und ist seit Juni 2025 zunächst in der Bing-App fßr iOS und Android verfßgbar.

Wichtige Funktionen und Eigenschaften:

  • Text-zu-Video: Nutzer geben eine Beschreibung ein, und die KI erstellt daraus ein kurzes Video. Zum Beispiel: „In einer belebten italienischen Pizzeria arbeitet ein Otter als Koch.“
  • Länge und Format: Die Videos sind aktuell 5 Sekunden lang und werden im Hochformat (9:16) generiert. Ein Querformat (16:9) ist in Vorbereitung.
  • Einfache Bedienung: Die Funktion ist direkt in der Bing-App unter „Video Creator“ zu finden oder kann Ăźber die Suchleiste mit einem Prompt wie „Create a video of...“ genutzt werden.
  • Kostenlos: Die ersten zehn schnellen Video-Generierungen sind gratis. Danach kann man mit Microsoft Rewards-Punkten weitere schnelle Generierungen freischalten oder auf den Standardmodus umsteigen.
  • Benachrichtigung und Download: Nach Fertigstellung erhält man eine Benachrichtigung, kann das Video herunterladen, teilen oder einen Link generieren. Die Videos bleiben 90 Tage gespeichert.
  • Drei Videos gleichzeitig: Es lassen sich bis zu drei Videos gleichzeitig in die Warteschlange stellen.
  • Zielgruppe: Besonders geeignet fĂźr Content Creator, Social-Media-Posts, Marketing, Bildung und alle, die schnell visuelle Ideen umsetzen wollen.
  • Desktop-Version: Eine Version fĂźr den Desktop und die Integration in Copilot Search sind angekĂźndigt und folgen in KĂźrze.

Fazit:
Bing Video Creator macht KI-Videoerstellung für alle zugänglich – kostenlos, einfach und direkt über die Bing-App. Die kurze Videolänge und intuitive Bedienung eignen sich besonders für schnelle, kreative Clips für Social Media und Marketing. Die Integration von Sora hebt die Qualität auf ein neues Level und bietet erstmals kostenlose Video-KI für die breite Öffentlichkeit.

Bing Video
Ankßndigung: https://blogs.bing.com/search/June-2025/Introducing-Bing-Video-Creator?form=M30190&OCID=M30190

Ähnliche Beiträge

Hol’ dir die Weiterbildung im Mail-Format
Starttermine, exklusive Rabatte und spannende Updates direkt in dein Postfach.

Kontakt
+ 4917664380939
Rick Maschke & Partner
Spezialist fßr exzellente Präsentationen Innovative Prozesse & Digitale Bildbearbeitung
rick@maschke.academy