Auf den Punkt: ARM kombiniert diskrete visuelle Token mit einem 7-Milliarden-Parameter-Modell, um Bild- und Texttasks einheitlich als Token-Vorhersagen zu lösen.
Ein neues Sprachmodell namens ARM vereint Bildverstehen, Bildgenerierung und Bildbearbeitung in einer autoregressive Architektur mit diskreten Token-Sequenzen. Das System nutzt einen trainierten Tokenizer für visuelle Inhalte und wird über Reinforcement Learning optimiert.
ARM basiert auf drei Hauptkomponenten: Zunächst trainieren die Autoren einen diskreten visuellen Tokenizer, der Bilder in kompakte Token-Sequenzen abbildet. Dieser Tokenizer wird mit mehreren Zielfunktionen trainiert, um semantische Unterscheidbarkeit, Textausrichtung und treue Bildrekonstruktion gleichzeitig zu fördern. Damit entsteht ein geteilter latenter Raum für verschiedene Aufgaben.
Das Kernsystem ist ein 7-Milliarden-Parameter Autoregressive Modell, das auf großen Mengen Text- und Bild-Token trainiert wird. Es entwickelt dabei Vision-Language-Fähigkeiten sowohl für Verständnis als auch Generierung. Das autoregressive Prinzip behandelt alle Aufgaben einheitlich als Vorhersage des nächsten Tokens.
Zusätzlich wenden die Autoren Reinforcement Learning an, um die Ausgaben für Text-zu-Bild-Generierung und instruktionsgelenkte Bearbeitung zu optimieren. Das RL-Training zielt auf visuelle Qualität, Befolgung von Anweisungen und Konsistenz bei Bearbeitungsoperationen ab. Die Ergebnisse zeigen messbare Verbesserungen: Der WISE-Score stieg von 0,50 auf 0,56, der GEdit-Bench-EN G_O von 5,75 auf 6,68.
Überraschend wirkt sich das RL-Tuning nicht nur auf die Zieldomain aus, sondern erzeugt auch positive Synergien zwischen Text-zu-Bild-Generierung und Bearbeitungstasks. Das deuten die Autoren als Beleg dafür, dass starke Repräsentationen kombiniert mit Preference-Optimierung eine skalierbare Grundlage für multimodale Systeme bieten. Der Code ist über GitHub öffentlich verfügbar.
Quelle: arxiv.org · Erschienen 8. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.