1000+ Fünf-Sterne-Bewertungen und Top-Auszeichnungen machen uns zu einer der gefragtesten Lernplattformen.

maschke academy blog

Wissen. Technik. Kreativität.

Der offizielle Blog der Maschke Akademie: Updates, Tutorials und Insights aus der Welt der digitalen Bildbearbeitung, KI und visuellen Medien.

← Zurück zur Übersicht

Künstliche Intelligenz 27.01.2026

Info Gemini: Darum kann Googles KI-Modell die Uhr nicht gut lesen oder darstellen – Analoguhr als Herausforderung

Gemini und andere aktuelle KI‑Modelle tun sich beim Lesen und Zeichnen analoger Uhren überraschend schwer, weil Uhrzeit‑Erkennung eine spezielle Kombination aus seltener Trainingsbasis und anspruchsvoller visueller Geometrie ist.

Was beobachtet wurde

Tests (u.a. ClockBench) zeigen: Selbst Spitzenmodelle wie Gemini 2.5 Pro liegen beim Ablesen analoger Uhren oft weit unter 25 % Trefferquote, während Menschen über 80–90 % erreichen.
Problematisch sind nicht nur „exotische“ Uhren, sondern schon normale Zeigeruhren mit römischen Ziffern, farbigen Zeigern, Spiegelungen oder stark gestalteten Hintergründen.

Warum analoge Uhren so schwierig sind

Zu wenig klar gelabelte Trainingsdaten: Es gibt kaum große Datensätze „Bild einer Uhr + exakte Uhrzeit“, viele Produktfotos zeigen zudem stereotyp 10:10 Uhr, was das Modell auf bestimmte Muster biasen kann.
Hohe Anforderungen an visuelle Geometrie: Das Modell muss dünne Zeiger korrekt erkennen, ihren Winkel auf einem Kreis interpretieren, Stunden‑ vs. Minutenzeiger unterscheiden und dann in eine Zeitangabe übersetzen.

Unterschied zu „normaler“ Bilderkennung

Klassische Vision‑Tasks (Hund/Katze, Auto/Person) basieren auf groben Formen und Texturen; bei der Uhr zählen hingegen kleine Winkelunterschiede von wenigen Grad, die große Zeitabweichungen bedeuten.
LLM‑Vision‑Modelle sind stark darin, semantische Kategorien zu erkennen, aber deutlich schwächer in präziser, metrischer Bildgeometrie – Analoguhrlesen testet genau diese Schwäche.

Warum Gemini die Uhr auch schlecht zeichnen kann

Wenn Gemini eine Uhr zeichnen soll, „halluziniert“ es oft Zeigerstellungen, die nicht zur beschriebenen Uhrzeit passen, weil im Text‑Space kein robustes, internes „Uhr‑Modell“ verankert ist.
Viele Trainingsbilder zeigen zudem Design‑Renderings mit idealisierten, symmetrischen Zeigerpositionen (wieder häufig 10:10), was die Vorstellung einer realen, beliebigen Uhrzeit weiter verzerrt.

Ausblick

Forschende sehen das Uhr‑Problem als Beispiel für eine generelle Lücke: präzises visuelles Reasoning jenseits von Textmustern.
Spezialisierte Trainingsdaten (z.B. ClockBench‑artige Sets) oder zusätzliche Geometrie‑Module könnten künftig dafür sorgen, dass KI‑Modelle auch solche eigentlich einfachen Alltagsaufgaben zuverlässig beherrschen.

Prompt (Thumbnail) "4 analoge Uhren unterhalten sich die eine Zeigt 8.30 Uhr die zweite 8.45 Uhr die dritte 8.15 Uhr und die vierte punkt 10 Uhr jede behauptet ihre zeit ist die richtige"