Googles neueste KI-Generation Gemini zeigt beeindruckende Fortschritte bei der automatisierten Erkennung von Handschriften und historischen Dokumenten: Tests mit sehr schwierigen, teils jahrhundertealten Schriften ergaben eine extrem geringe Fehlerquote â bis zu nur 0,56% auf Zeichenebene und rund 1,22% auf Wortebene. Das bedeutet, dass durchschnittlich nur ein Fehler pro 200 Zeichen auftritt; meist handelt es sich um unkritische Satzzeichen- oder GroĂ/Kleinschreibungsfehler.
Was macht Gemini besonders?
- Gemini basiert auf einem multimodalen Ansatz: Die KI kann nicht nur Text, sondern ebenso Handschrift und historische Schriftarten erkennen und sogar deren Bedeutung im Kontext erfassen und erklären.
- Die Erkennungsleistung entspricht mittlerweile (laut Historikertests) professionellen menschlichen Expertinnen und Experten.
- Die KI ist auch in der Lage, bei unklaren oder fehlenden Informationen zu argumentieren, zu plausibilisieren und das Ergebnis zu begrĂźnden â ein Faktor, der Ăźber klassische OCR-Systeme hinausgeht.
Bedeutung fĂźr Wissenschaft und Praxis
- Historiker und Archivare, die bisher tagelang mit der manuellen Transkription alter Dokumente beschäftigt waren, kĂśnnen nun deutlich schneller arbeiten â Gemini reduziert den Zeitaufwand und die Fehleranfälligkeit erheblich.
- Auch fĂźr Alltagsnutzer ist die Handschriftenerkennung so robust, dass z.B. Familienbriefe oder Notizen aus frĂźheren Zeiten unkompliziert digitalisiert werden kĂśnnen.
- Die Technologie funktioniert âout of the boxâ â speziell trainierte Modelle fĂźr jede einzelne Schriftart sind oft nicht mehr notwendig.
Einordnung und Ausblick
- Schon zuvor hatten KI-basierte Systeme wie Transkribus oder GPT-4 Fortschritte bei Handschriftenerkennung gemacht, aber Gemini hebt das Niveau auf nahezu perfekte Erkennung bei hochkomplexen Vorlagen.
- Google setzt die Gemini-Technologie bereits in verschiedenen Diensten ein. Fßr den produktiven Einsatz (z.B. im Archivwesen oder bei Digitalisierungs-Projekten) kÜnnten kßnftig noch spezialisierte Oberflächen und Exportfunktionen folgen.
Gemini gilt damit als ein wichtiger Durchbruch fĂźr die Digitalisierung historischer Texte und als Paradebeispiel fĂźr moderne KI-Anwendungen in der praktischen Texterkennung.
Hier findest du weiterfĂźhrende Informationen: Google Watch Blog