Ein modifizierter Transformer mit zwei unabhängigen Computation-Streams für Zustandsverwaltung und Token-Vorhersage reduziert die notwendigen Ressourcen und verbessert die Performance um 2–3 Prozentpunkte bei Downstream-Tasks.
Orca verbindet Video, Sprache und visuelle Fragen in einem einheitlichen latenten Raum und zeigt, dass dieses unified world model spezialisierte Modelle bei Text-, Bild- und Aktionsprognosen übertreffen kann.