Auf den Punkt: Code statt starre Tool-Calls ermöglichen es KI-Agenten, räumliche Szenen flexibler zu analysieren und komplexe 3D/4D-Aufgaben iterativ zu lösen.</tldr>
</invoke>
Forscher präsentieren SpatialClaw, ein Framework, das Vision-Language-Modellen durch eine Code-basierte Aktionsschnittstelle dabei hilft, 3D- und 4D-Szenen zu analysieren und räumliche Beziehungen zwischen Objekten zu verstehen. Das System nutzt einen stateful Python-Kernel und erreicht in Tests über 20 Benchmarks durchschnittlich 59,9% Genauigkeit – ein Fortschritt von 11,2 Prozentpunkten gegenüber bisherigen räumlichen Agenten.
Das Verständnis räumlicher Verhältnisse – wo Objekte sind, wie sie zueinander stehen, wie sie sich in 3D bewegen – stellt Vision-Language-Modelle (VLMs) vor grundlegende Herausforderungen. Tool-augmentierte Agenten versuchen dies durch spezialisierte Wahrnehmungsmodule zu lösen, doch ihre Wirksamkeit ist durch die Schnittstelle begrenzt, über die diese Werkzeuge aufgerufen werden.
SpatialClaw adressiert dieses Design-Problem durch eine unkonventionelle Lösung: Statt entweder auf Single-Pass-Code-Ausführung zu setzen (die sich vorab auf eine Strategie festlegen muss) oder auf starre Tool-Call-Schnittstellen zu verlassen, nutzt das Framework Code als Aktionsschnittstelle. Der Ansatz ist trainings-frei und arbeitet mit einem Zustand-erhaltenden Python-Kernel, der die Eingabebilder sowie eine Suite von Wahrnehmungs- und Geometrie-Primitiven vorladen hat. Der VLM-Agent kann daraufhin schrittweise Python-Zellen schreiben, die auf alle bisherigen Ausgaben reagieren – und so Wahrnehmungsergebnisse flexibel kombinieren, Analysen an Zwischenergebnisse und visuelle Beobachtungen anpassen sowie die Lösung auf spezifische Anforderungen ausrichten.
In der Evaluierung über 20 Benchmarks, die statische wie dynamische 3D/4D-Aufgaben abdecken, erzielte SpatialClaw konsistente Gewinne über sechs VLM-Backbone aus zwei Modell-Familien hinweg – ohne benchmark- oder modellspezifische Anpassung. Das Framework demonstriert, dass die Wahl der Agentur-Schnittstelle selbst ein kritischer Erfolgsfaktor für offenes räumliches Denken ist.
Quelle: arxiv.org · Erschienen 10. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.