Workflow-GYM: Benchmark offenbart Grenzen von KI-Agenten bei komplexen GUI-Aufgaben10. Juni 202610. Juni 2026AI Models, Claude Code, Claude CoworkShare on:Aktuelle KI-Agenten können langfristige, professionelle GUI-Workflows nicht zuverlässig ausführen und scheitern an Konsistenzerhalt, Fehlerausbreitung und domänenspezifischem Verständnis. Share on: