Auf den Punkt: Langfristige iterative Verbesserung, nicht einzelne hochwertige Antworten, ist die entscheidende Fähigkeit für autonome KI-Agenten bei realen Engineering-Aufgaben.

Forscher haben AutoLab vorgestellt, einen Benchmark für extrem langfristige autonome Optimierungsaufgaben über Stunden oder Tage. Die Evaluierung von 17 Frontier-Modellen zeigt: Der Erfolg hängt weniger von der initialen Modellqualität ab, sondern vom Durchhaltevermögen beim iterativen Testen, Anpassen und Einarbeiten von Feedback.

AutoLab definiert Anforderungen neu, die bisherige Benchmarks nicht erfasst haben. Während etablierte Evaluationen Frontier-Modelle typischerweise auf Einzelanfragen oder kurze Agent-Trajektorien testen, simuliert AutoLab realistische Szenarien der wissenschaftlichen und technischen Arbeit: Das Zyklus-Modell Hypothese → Experiment → Messung → Verfeinerung über ausgedehnte Zeithorizonte.

Der Benchmark umfasst 36 manuell kuratierte Aufgaben in vier Domänen: System-Optimierung, Rätsel und Herausforderungen, Modell-Entwicklung und CUDA-Kernel-Optimierung. Jede Aufgabe startet mit einem korrekten, aber bewusst suboptimalen Baseline-Code. Die Agenten haben ein festes Time-Budget, um die Implementierung messbar zu verbessern. Die Evaluierung umfasste 17 State-of-the-Art-Modelle, darunter mehrere proprietäre Systeme.

Die Ergebnisse offenbaren ein klares Muster: Claude Opus 4.6 zeigt starke Fähigkeiten beim langfristigen Optimieren. Die meisten anderen Frontier-Modelle, auch proprietäre, brechen vorzeitig ab oder verbrauchen das Budget mit minimalem Fortschritt. Der dominante Erfolgsfaktor ist nicht die Modellgröße oder Initialperformanz, sondern das Vermögen, über viele Iterationen hinweg zu benchmarken, Code anzupassen und empirische Signale einzuarbeiten.

Dieses Ergebnis hat direkten Bezug zur Konstruktion autonomer Agenten für Production-Umgebungen. CTOs müssen davon ausgehen, dass KI-Systeme zeitliche Grenzen und ihre verbrauchten Ressourcen verstehen sowie bei unzureichendem Fortschritt adaptiv ihre Strategie ändern müssen. Der Benchmark und alle Artefakte sind open-source verfügbar.

Quelle: arxiv.org · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on:

AutoLab: Benchmark testet Frontier-Modelle bei langfristiger Optimierung

Lumi AI News

Rechtliches

Themenbereiche