Auf den Punkt: Astra kombiniert ein RL-trainiertes Vision-Language-Model mit einem Welt-Simulator, um räumliches Reasoning durch selektiv generierte Perspektiven zu verbessern.
Forscher haben ein Framework entwickelt, das Vision-Language-Models durch einen integrierten Welt-Simulator mit räumlicher Vorstellungskraft ausstattet. Das System lernt, wann es sinnvoll ist, Szenen aus neuen Blickwinkeln zu simulieren, um bei räumlichen Reasoning-Aufgaben besser abzuschneiden.
Vision-Language-Models zeigen zwar starke visuelle Fähigkeiten, scheitern aber häufig bei räumlichem Reasoning: Sie können aus begrenzten, egozentriischen Beobachtungen nicht auf verborgene Layouts schließen, nicht zwischen verschiedenen Perspektiven konsistent bleiben und nicht aus alternativen Blickwinkeln argumentieren. Die neue Arbeit fragt daher, wie ein VLM durch Interaktion mit einem Welt-Simulator während des Reasonings imaginäre visuelle Evidenz aktiv einbeziehen könnte.
Das Astra-Framework koppelt dazu zwei Komponenten: Astra-VL ist ein Reinforcement-Learning-trainiertes VLM-Policy, das eine Regelbasierten-Richtlinie für die Simulator-Nutzung lernt. Astra-WM ist ein auf Bagel basierender Welt-Simulator, der aus Kontext-Bildern und natürlichsprachlichen Kamera-Bewegungen neue Perspektiven generiert. Um reliable Simulationen zu sichern, wird Astra-WM mit View-Consistency-Tuning trainiert, das Kamera-Pose und Inhalts-Konsistenz über verschiedene Blickwinkel hinweg verbessert. Im RL-Trainingsstadium nutzt das System ein zweiphasiges Curriculum, das die Werkzeug-Exploration stabilisiert und das Modell dazu bringt, den Simulator nur dann zu nutzen, wenn imaginierte Beobachtungen direktes Beantworten verbessern würden.
In Experimenten zeigen sich beide Komponenten notwendig: Astra-WM verbessert Gemini-3-Flash auf MMSI-Bench von 45,1 auf 49,5 Punkte, während Astra-VL die Qwen3-VL-Basis von 29,8 auf 38,8 auf MMSI-Bench (und von 36,8 auf 42,7 auf MindCube) anhebt. Die Ergebnisse belegen, dass simulierte Beobachtungen räumliche Evidenz liefern können, aber effektives World-Model-augmentiertes Reasoning erfordert, dass das System lernt, wann, wo und wie es imaginieren sollte.
Quelle: arxiv.org · Erschienen 3. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.