Auf den Punkt: Automatisch synthetisierte Trainingsdaten verbessern Desktop-Agenten um 18,7 Prozentpunkte gegenüber bisherigen Ansätzen.
Forscher präsentieren einen Datensatz mit 3,1 Millionen Step-Level-Samples zur Verbesserung von KI-Modellen, die mit Bildschirmen und Eingabegeräten interagieren. Das bisherige Public-Datensatz AgentNet führt beim Training zu degradierter Performance, während die neue ProCUA-SFT-Methode substantielle Verbesserungen erreicht.
Das Training von Computer-Use-Agenten (CUAs) – Modellen, die über Screenshots sowie Tastatur- und Mauseingaben mit Desktop-Umgebungen interagieren – erfordert große Mengen diverser Trajektoriendaten. Das größte öffentliche Datensatz AgentNet mit 22.500 menschlichen Trajektorien führt jedoch zu negativem Transfer: Das Fine-Tuning des Modells UI-TARS 7B auf AgentNet senkt die OSWorld-Erfolgsrate von 26,3 % auf 8–10 %.
Die neue ProCUA-SFT-Methode nutzt einen vollautomatisierten Pipeline: Sie synthetisiert 93.000 Trajektorien über 2.484 verschiedene Anwendungskombinationen hinweg und destilliert diese in 3,1 Millionen Step-Level-SFT-Samples. Die Daten basieren auf gegrundeten Aufgaben in Live-Desktop-Umgebungen mit echten Inhalten – 912 Tabellenkalkulationen aus SpreadsheetBench, etwa 10.000 lizenzfreie Präsentationen von Zenodo und Multi-App-Konfigurationen aus OSWorld. Eine einzelne Vision-Language-Model (Kimi-K2.5) generiert Ziele, prüft Vorbedingungen und führt Trajektorien aus, wodurch Unterschiede zwischen Planer und Executor entfallen. Jede Trajektorie wird in Step-Prefix-Samples expandiert, die exakt den Kontext-Layout reproduzieren, den das Modell zur Inferenzzeit sieht.
Das Training von UI-TARS 7B auf ProCUA-SFT für eine Epoche erreicht 45,0 % Erfolgsrate auf OSWorld – eine Verbesserung um 18,7 Prozentpunkte gegenüber dem Basis-Modell und über 35 Prozentpunkte über AgentNet-trainierten Gegenstücken. Ein Teil des ProCUA-Datensatzes wurde in die Trainingsdaten für Nvidias Nemotron 3 Nano Omni Modell integriert.
Quelle: arxiv.org · Erschienen 14. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.