Auf den Punkt: Aktuelle KI-Agenten können langfristige, professionelle GUI-Workflows nicht zuverlässig ausführen und scheitern an Konsistenzerhalt, Fehlerausbreitung und domänenspezifischem Verständnis.

Forscher haben mit Workflow-GYM einen Benchmark entwickelt, der misst, wie gut KI-Agenten komplexe, mehrschrittigen GUI-basierte Arbeitsabläufe in professioneller Software durchführen können — mit ernüchterndem Ergebnis: Die besten verfügbaren Modelle erzielen nur knapp über 30 % Erfolgsquote.

Workflow-GYM adressiert eine Lücke in der bestehenden Evaluierungslandschaft: Während KI-Agenten zunehmend an komplizierten Aufgaben getestet werden, konzentrieren sich verfügbare Benchmarks überwiegend auf allgemeine Software, einfache Anwendungen und kurzzeitige Aufgaben. Der neue Benchmark fokussiert auf längerfristige, hochwertige Arbeitsabläufe in professioneller Spezialsoftware — etwa Finanztools, Engineering-Plattformen oder Domänen-spezifischen Anwendungen, die wirtschaftlich relevante Ergebnisse liefern müssen.

Die umfassenden Tests zeigen, dass selbst die leistungsstärksten Modelle bei solchen Szenarien nur knapp 30 % der Aufgaben erfolgreich abschließen. Die Analyse der Fehlgeschlagenen Versuche deckt systematische Schwächen auf: KI-Agenten lassen häufig Schritte des Workflows aus, lassen Fehler sich fortpflanzen (ein Fehler früh im Prozess beeinträchtigt spätere Schritte), verlieren ihr ursprüngliches Ziel aus den Augen und verstehen Funktionalitäten spezialisierter Software nicht hinreichend.

Für CTOs bedeutet dies, dass heutige Agentenarchitekturen für zeitkritische, multi-stufige Aufgaben in professioneller Umgebung — etwa Finanzabschlüsse, Genehmigungsprozesse oder Engineering-Workflows — noch nicht produktionsreif sind. Die Studie identifiziert Konsistenzerhalt über lange Prozessschritte hinweg und tieferes Verständnis von Domain-spezifischer Software als zentrale Forschungsrichtungen für die nächste Generation von GUI-Agenten.

Quelle: arxiv.org · Erschienen 8. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

Workflow-GYM: Benchmark offenbart Grenzen von KI-Agenten bei komplexen GUI-Aufgaben

Lumi AI News

Rechtliches

Themenbereiche