Zum Inhalt springen

Optische Reasoning: Bilder statt Text als Reasoning-Medium in KI-Modellen

Share on:

Auf den Punkt: Optische Reasoning nutzt Bilder als primäres Reasoning-Medium und spart dabei durchschnittlich 28,57 Prozent Token bei Sprachaufgaben und 16 Prozent bei multimodalen Aufgaben ein.

Forschende haben gezeigt, dass KI-Modelle visuelle Reasoning-Prozesse direkt in Bildern darstellen können, statt ausschließlich auf textliche Zwischenschritte zu setzen. Diese Herangehensweise reduziert den Token-Verbrauch deutlich und verbessert die Effizienz multimodaler Sprachmodelle.

Traditionell nutzen Large Language Models (LLMs) Chain-of-Thought-Prompting, um ihre Leistung durch explizite textliche Zwischenschritte zu verbessern. Dieses Ansatz wurde bereits auf multimodale Sprachmodelle (MLLMs) ausgeweitet. Neuere Forschung verschiebt die Grenze weiter: Statt einzelne Text- und visuelle Evidenz-Elemente zu verbinden, wird untersucht, ob Bilder allein als Reasoning-Medium fungieren können.

Das Konzept „Optical Reasoning“ realisiert diese Idee in zwei Varianten: Das typografische Ansatz optimiert visuelle Layouts für kompakte Rational-Darstellung, während der grafische Ansatz Text und grafische Elemente zu strukturierten visuellen Rationales verbindet. Im Test zeigen beide Varianten auf mathematischen, wissenschaftlichen und multimodalen Reasoning-Benchmarks, dass sie traditionelle Text-basierte Reasoning mindestens erreichen oder übertreffen. Die Token-Effizienz ist dabei erheblich: Bei Sprachaufgaben sinkt der Token-Verbrauch um durchschnittlich 28,57 Prozent, bei multimodalen Aufgaben um 16 Prozent. Insgesamt erreicht optisches Reasoning eine 1,96fach bessere Token-Effizienz als reines Text-Reasoning.

Für CTOs bedeutet das Ergebnis eine praktische Optimierungsdimension bei Deployment und Betriebskosten multimodaler Systeme. Weniger Token pro Reasoning-Schritt reduziert direkt Latenz und Infrastruktur-Anforderungen. Die Herangehensweise öffnet zudem neue Möglichkeiten, wie Modelle Wissen repräsentieren und kommunizieren können — nicht als textuelle Kette, sondern als visuell kodierte Rationales. Damit wird das Verständnis davon, was „Reasoning“ in multimodalen Systemen bedeutet, erweitert: nicht bloss Text plus Bild, sondern Bild als Reasoning-Träger.


Quelle: arxiv.org · Erschienen 8. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: