Orca verbindet Video, Sprache und visuelle Fragen in einem einheitlichen latenten Raum und zeigt, dass dieses unified world model spezialisierte Modelle bei Text-, Bild- und Aktionsprognosen übertreffen kann.
Orca lernt eine gemeinsame Welt-Repräsentation aus Videos und Sprachannotationen und ermöglicht damit Text-Generierung, Bildvorhersage und Steuerung von Agenten mit gefrozenem Backbone und modularen Decodern.