Zum Inhalt springen

LUMOS: Semantische OS-Schicht für zugänglichkeits-gestützte KI-Agenten

Auf den Punkt: Semantische OS-Schicht ermöglicht KI-Agenten, über Accessibility-Metadaten statt Screenshots zu interagieren, was Token-Kosten und Latenz senkt.

Forscher haben LUMOS entwickelt, eine semantische Interaktionsschicht zwischen KI-Agenten und Betriebssystemen, die maschinell lesbare Darstellungen von UI-Elementen und Accessibility-Metadaten bereitstellt statt Screenshots zu verarbeiten. Das reduziert Token-Kosten, Latenz und Koordinaten-Unsicherheit bei KI-gesteuerten Computer-Use-Agenten erheblich.

Das Problem ist grundlegend: Heutige Betriebssysteme exponieren Interfaces für Menschen – Pixel, Icons, Fenster, Mauszeiger – nicht für KI-Agenten. Computer-Use-Agenten sind deshalb gezwungen, Screenshots zu interpretieren, OCR-Ausgaben zu verarbeiten und visuell mehrdeutige Crop-Ausschnitte zu analysieren. Das verursacht hohe Token-Kosten, erhöhte Latenz und Unsicherheit bei Koordinaten-Angaben.

LUMOS (Language Model Unified Machine-Readable Operating-System Semantics) konvertiert native Accessibility-Metadaten und Browser-UI-Strukturen in maschinell lesbare semantische Blueprints mit stabilen Identifiern, Rollen, Namen, Werten, Begrenzungen und verfügbaren Aktionen. Die Schicht unterstützt auch Live-Grounding von semantischen Zeigern: Das System kann per OS-Automation-APIs abfragen, welches UI-Element sich unter oder nah am Cursor befindet. Das LLM agiert dann durch eine Accessibility-gestützte Observe-Act-Schleife mit eingeschränkten sichtbaren UI-Primitives – nicht mit anwendungsspezifischen Skripten.

Für Engineers bedeutet das konkret: Agenten benötigen weniger visuelles Kontext-Verarbeitung, wenn das OS bereits Semantik bereitstellt. LUMOS ersetzt nicht visuelle Agenten, reduziert aber die Abhängigkeit von Screenshot-Interpretation dort, wo strukturierte Accessibility-Schnittstellen verfügbar sind. Der Ansatz skizziert einen Weg zu AI-nativen Betriebssystemen und maschinenlesbaren Interaktionsschichten, die klassische Automation effizienter machen können.


Quelle: arxiv.org · Erschienen 28. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.

Share on: