Auf den Punkt: VisualClaw senkt Deployment-Kosten für Video-Agenten um bis zu 98 Prozent durch Frame-Filterung und selbstlernende Skill-Updates, während die Genauigkeit in den meisten Settings steigt.
Forscher stellen VisualClaw vor, ein Multimodal-Agenten-System für Vision Language Models, das durch selektive Videoframe-Filterung und kontinuierliches Skilllernen API-Kosten um bis zu 98 Prozent reduziert. Das Framework adressiert drei zentrale Deployment-Probleme von Video-verstehenden Agenten: hohe Latenz bei dichter Videoanalyse, statische Agent-Strukturen nach Deployment und fehlende Echtzeit-Werkzeugnutzung in Benchmarks.
VisualClaw setzt zwei Optimierungsprinzipien um. Das erste ist ein Hybrid-Encoding-Verfahren, das weniger informative Frames einer Video-Sequenz mittels kaskadierter Gates filtert und die Text-Skill-Bank durch Top-k-Injection (Hot/Cold-Verfahren) komprimiert. Dies reduziert unmittelbar die Anfragen an Vision Language Models. Das zweite Prinzip ist Skill-Evolution: Der Agent lernt aus gescheiterten Abfragen, indem abgerufene Erinnerungen einen Evolver als direkte oder geführte Evidenz konditionieren und so die Skill-Bank für zukünftige Aufgaben aktualisieren.
In Experimenten über vier Video-QA-Benchmarks mit zwei verschiedenen VLMs reduzierte VisualClaw die Pro-Frage-API-Kosten um durchschnittlich 98 Prozent gegenüber dem Hochladen aller Frames und um 25,9 Prozent gegenüber dem Baseline von acht uniformen Frames pro Video. Auf dem EgoSchema-Benchmark erreichte das System mit Gemini 3 Flash eine Genauigkeitssteigerung von durchschnittlich 3,85 Prozent, spitzenweise 15,80 Prozent. Die Forscher kurierten zudem VisualClawArena, einen neuen 200-Szenarien-Benchmark, der Multimodal-Agenten dazu zwingt, Videoevidenz, Dokumente, dynamische Updates und ausführbare Checks innerhalb eines Workspace zu nutzen.
Auf VisualClawArena verbesserte das Framework mit Computer-Use-Agent-Backends die Makro-Genauigkeit um 2,9 Prozent für Codex (GPT-5.5) und um 3,2 Prozent für Claude Code (Sonnet 4.6) im Vergleich zu Baselines ohne Evolution, bei gleichzeitiger Kostenreduktion von 9,5 Prozent gegenüber uniform gesampelten Baselines. In Edge-Szenarien reduzierte sich die Zahl der API-Aufrufe von etwa 3.600 pro einstündige Streaming-Session auf nur fünf bis 20 Anfragen.
Quelle: arxiv.org · Erschienen 14. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.