Auf den Punkt: Orca lernt eine gemeinsame Welt-Repräsentation aus Videos und Sprachannotationen und ermöglicht damit Text-Generierung, Bildvorhersage und Steuerung von Agenten mit gefrozenem Backbone und modularen Decodern.
Forscher stellen Orca vor, ein generales Foundation-Modell, das aus multimodalen Signalen einen einheitlichen Latent-Space der Welt erlernt und diesen über verschiedene Ausgabeschnittstellen zugänglich macht. Das System verbindet Video-Verarbeitung mit Sprach-Supervision und Embodied-AI in einem gemeinsamen Next-State-Prediction-Framework.
Orca setzt auf zwei komplementäre Lernparadigmen: „Unbewusstes Lernen“ extrahiert dichte Zustandsübergänge aus durchgehenden Videos, während „bewusstes Lernen“ sparse, bedeutungsvolle Übergänge aus sprachlich beschriebenen Events und Visual-Question-Answering-Supervision modelliert. Im Gegensatz zu isolierten Vorhersage-Objektiven (Next-Token, Next-Frame, Next-Action) konzentriert sich der Ansatz auf einheitliche Zustandsübergänge und schafft damit eine konsistente Modellierungsroute für Verständnis, Vorhersage und Aktion.
Die Vortrainings-Datenbasis umfasst 125.000 Stunden Videomaterial und 160 Millionen Event-Annotationen. Das gelernte Latent-Space wird anschließend als gefrorener Backbone verwendet, während nur leichte, modalitätsspezifische Decoder trainbar bleiben. Diese Architektur ermöglicht flexible Downstream-Anwendungen.
Die Evaluation deckt drei repräsentative Downstream-Aufgaben ab: Text-Generierung, Bild-Vorhersage und embodied Action-Generierung. Orca übertrifft dabei vergleichbar große spezialisierte Baseline-Modelle. Die Ergebnisse deuten darauf hin, dass ein stärkeres Welt-Latent direkt zu stärkeren Downstream-Outputs führt. Damit positioniert sich Orca als vielversprechender Ansatz für foundation-basiertes Welt-Verständnis, der die Skalierbarkeit eines einheitlichen Paradigmas demonstriert.
Quelle: arxiv.org · Erschienen 28. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.