Auf den Punkt: Orca verbindet Video, Sprache und visuelle Fragen in einem einheitlichen latenten Raum und zeigt, dass dieses unified world model spezialisierte Modelle bei Text-, Bild- und Aktionsprognosen übertreffen kann.
Forscher präsentieren Orca, ein Foundation-Modell das multimodale Weltsignale in einem einheitlichen latenten Raum verarbeitet und drei verschiedene Ausgabeschnittstellen unterstützt: Textgenerierung, Bildvorhersage und Aktionsgenerierung für verkörperte Systeme.
Orca basiert auf einem Paradigma der Zustandsübergangsprognose (Next-State-Prediction), das über isolierte Token-, Frame- oder Aktionsprognosen hinausgeht. Das Modell lernt durch zwei komplementäre Verfahren: unbewusstes Lernen erfasst dichte natürliche Zustandsübergänge aus kontinuierlichen Videostreams, bewusstes Lernen modelliert spärliche bedeutungsvolle Übergänge über sprachbeschriebene Ereignisse und Visual-Question-Answering-Supervision.
Für die Vortrainierung nutzt das Team einen Datenschatz von 125.000 Stunden Videomaterial und 160 Millionen Ereignisannotationen. Das resultierende Modell entwickelt einen einheitlichen latenten Raum, der Weltdynamiken auf abstrakte Weise erfasst. Die Architektur hält das trainierte Backbone-Netzwerk während des Finetunings eingefroren und trainiert nur leichtgewichtige Modalitäts-spezifische Decoder nach – ein effizienter Transferlern-Ansatz.
Evaluierungen zeigen, dass Orca auf den drei Downstream-Tasks Textgenerierung, Bildvorhersage und Aktionsgenerierung spezialisierte, ähnlich dimensionierte Baseline-Modelle übertrifft. Die Skalierbarkeit des vorgestellten Paradigmas wird bestätigt: Ein stärkerer gelernter latenter Raum ermöglicht robustere Downstream-Readouts. Die Arbeitsgruppe dokumentiert zugleich aktuelle Limitierungen und skizziert offene Fragen für die Forschungscommunity.
Quelle: arxiv.org · Erschienen 28. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.