Zum Inhalt springen

InternVideo3: Foundation-Modelle mit multimodalem Reasoning für Video-Agenten

Share on:

Auf den Punkt: InternVideo3 ermöglicht Foundation-Modellen, längere Videosequenzen mit iterativem Reasoning und Werkzeugnutzung zu analysieren, ohne dabei in Effizienzprobleme bei der KV-Cache-Verwaltung zu geraten.

Forscher präsentieren InternVideo3, ein Framework zur Erweiterung von Foundation-Modellen um agentenähnliche Fähigkeiten für Video-Verarbeitung. Das System kombiniert mehrstufiges Reasoning über längere Videosequenzen mit einer effizienteren Architektur für Kontextverarbeitung.

Das Framework adressiert eine bestehende Lücke in der Open-Source-Forschung: Während Foundation-Modelle zunehmend mehrstufiges Reasoning und Werkzeugnutzung unterstützen, konzentriert sich die Entwicklung dabei überwiegend auf textlastige Anwendungen. Long-Horizon-Tasks im Videobereich, die kontinuierliches zeitliches Verständnis und iterative Interaktion erfordern, blieben bislang unterrepräsentiert.

Kern von InternVideo3 ist die Multimodal Contextual Reasoning (MCR): ein geschlossener Feedback-Prozess über einen gemeinsamen, sich entwickelnden Kontext. Dieser Kontext integriert Beobachtungen (Video-Input), Anweisungen, Reasoning-Schritte, Aktionen von Werkzeugen und Speicher. Long-Video-Verständnis wird damit als iterative Evidenzsammlung und Verifizierung modelliert. Parallel eingeführt wurde Multimodal Multi-head Latent Attention (M²LA): eine Reparameterisierungstechnik, die KV-Cache-States komprimiert, während der vollständige Token-Strom erhalten bleibt. Dies verhindert die typischen Speicher- und Latenzprobleme bei längeren Videosequenzen.

Das Training erfolgt in vier Phasen: Continued Pretraining, Supervised Fine-Tuning für Short-to-Long-Szenarien, rule-basierte Reinforcement Learning und On-Policy-Distillation. Evaluiert wurde das Modell auf etablierten Benchmarks (Video-MME, MLVU, EgoSchema) sowie als praktischer Video-Agent mit Retrieval-Tools. Die Ergebnisse zeigen, dass effiziente Kontextbehandlung und geschlossenes Reasoning notwendig sind, um open multimodale Modelle für lange, visuell verankerte Agenten-Tasks zu adaptieren.


Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: