Orca verbindet Video, Sprache und visuelle Fragen in einem einheitlichen latenten Raum und zeigt, dass dieses unified world model spezialisierte Modelle bei Text-, Bild- und Aktionsprognosen übertreffen kann.
Orca lernt eine gemeinsame Welt-Repräsentation aus Videos und Sprachannotationen und ermöglicht damit Text-Generierung, Bildvorhersage und Steuerung von Agenten mit gefrozenem Backbone und modularen Decodern.
Qwen-AgentWorld trainiert Sprachmodelle auf Basis von über 10 Millionen Interaktionstrajectories als Umweltsimulator, um KI-Agenten durch virtuelle Umgebungen zu trainieren und deren Performance über sieben Benchmarks zu verbessern.
Qwen-AgentWorld nutzt Sprachmodelle als gelernte Umweltsimulationen, um autonome Agenten effizient zu trainieren und ihr Reasoning über Kettenfolgerung zu verbessern.
Visuellen Weltmodellen lassen sich durch visuell unauffällige Bildmanipulationen systematisch zur Generierung fehlerhafter Vorhersagen bewegen, ohne dass dabei zukünftige Daten oder Nutzereingaben bekannt sein müssen.