Auf den Punkt: VisualClaw kombiniert effiziente Video-Codierung mit Lernmechanismen, um KI-Agenten kostengünstiger und genauer auf Videoaufgaben einzusetzen und dabei auch in Echtzeit-Edge-Szenarien praktikabel zu sein.
Forscher stellen VisualClaw vor, ein selbstlernendes Agenten-System, das Vision Language Models (VLMs) für Video-Analyse effizient einsetzt. Durch intelligente Frame-Filterung und Fähigkeits-Evolution reduziert der Ansatz API-Kosten um durchschnittlich 98 Prozent gegenüber vollständigem Frame-Upload.
Vision Language Models haben sich als vielseitige Schnittstellen für komplexe multimodale Aufgaben etabliert. Bei der praktischen Bereitstellung entstehen jedoch drei Engpässe: VLMs verursachen hohe Latenzen und Kosten beim Verarbeiten von dichten Video-Sequenzen und langen Prompts, Agent-Strukturen bleiben nach dem Deployment statisch, und etablierte Video-QA-Benchmarks prüfen nicht, ob Agenten visuelle Evidenz innerhalb von Tool-Workspaces nutzen können.
VisualClaw adressiert diese Lücken durch zwei Kernprinzipien. Das erste ist „Hybrid Encoding“: Ein kaskadenförmiger Gate filtert weniger informative Frames aus dem Video-Stream, während ein Hot/Cold-Top-k-Mechanismus die Text-Skill-Bank komprimiert. Dies senkt die Deployment-Kosten signifikant. Das zweite Prinzip ist „Skill Evolution“: Der Agent lernt aus Fehlgeschlagenen Versuchen. Gespeicherte Erfahrungen (Memories) werden als direkte Kontextinformationen oder als gelenkte Evidenz an einen Evolver weitergeleitet, der die Skill-Bank aktualisiert und damit künftige Anfragen unterstützt.
In Evaluierungen über vier Video-QA-Benchmarks mit zwei verschiedenen VLM-Modellen zeigt sich die Effizienz: VisualClaw reduziert die API-Kosten pro Frage um durchschnittlich 98 Prozent gegenüber vollständigem Frame-Upload und um 25,9 Prozent gegenüber einem statischen Baseline, der uniform acht Frames sampelt. Gleichzeitig verbessert sich die Genauigkeit in den meisten Fällen, beispielsweise um durchschnittlich 3,85 Prozent und in Spitzenfällen um 15,80 Prozent beim EgoSchema-Benchmark mit Gemini 3 Flash.
Die Forscher haben zudem VisualClawArena, ein neues Benchmark mit 200 Szenarien, etabliert. Dieses zwingt Modelle, Videoevidenz, Dokumente, dynamische Updates und ausführbare Überprüfungen innerhalb eines Workspaces zu nutzen. Mit Computer-Use-Agent-Backends erreicht der Ansatz auf VisualClawArena Verbesserungen von 2,9 Prozent für GPT-4.5 (Codex) und 3,2 Prozent für Claude Code (Sonnet) über ablative Baselines, während die Kosten um 9,5 Prozent gegenüber uniformem Sampling sinken.
Für Edge-Anwendungen wird die Praktikabilität besonders deutlich: Eine einstündige Streaming-Session, die normaler Weise etwa 3.600 API-Aufrufe erfordern würde, reduziert sich auf nur 5 bis 20 Anfragen. Die Selbstlern-Fähigkeit macht VisualClaw zu einem personalisierten Assistenten, der sich an die Anforderungen einzelner Nutzer anpasst.
Quelle: arxiv.org · Erschienen 14. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.