GauntletBench: Neue Messlatte zeigt Grenzen von KI-Agenten auf

Aktuelle KI-Agenten scheitern bei komplexen visuellen Aufgaben in professionellen Anwendungen deutlich häufiger als bisherige Benchmarks suggerieren.

Share on: