Auf den Punkt: Infrastruktur-Ressourcen-Konfiguration kann Agentic-Coding-Benchmark-Scores um bis zu 6 Prozentpunkte verändern. Tests zeigen, dass Fehlerquoten bei mehr Ressourcen-Spielraum sinken, was die Validität von Modellvergleichen auf solchen Benchmarks in Frage stellt.
Agentic-Coding-Benchmarks wie SWE-bench und Terminal-Bench werden zur Bewertung von Sprachmodellen verwendet, wobei Spitzenplatzierungen oft nur um wenige Prozentpunkte auseinander liegen. Eine neue Analyse zeigt, dass allein die Infrastruktur-Konfiguration Unterschiede erzeugen kann, die diese Margen überschreiten – mit Abweichungen von bis zu 6 Prozentpunkten auf Terminal-Bench 2.0.
Im Gegensatz zu statischen Benchmarks, die die Ausgabe eines Modells direkt bewerten, sind agentic Coding-Evaluierungen unterschiedlich: Modelle erhalten eine vollständige Umgebung, in der sie Programme schreiben, Tests ausführen, Abhängigkeiten installieren und über mehrere Durchläufe iterieren. Die Laufzeit-Umgebung ist nicht länger nur ein passiver Container, sondern ein integraler Bestandteil des Problemlösungsprozesses.
Bei der Kalibrierung eines Terminal-Bench-2.0-Setups auf einem Google Kubernetes Engine-Cluster wurden erhebliche Diskrepanzen zu den offiziellen Leaderboard-Scores entdeckt. Die Infrastruktur-Fehlerrate war überraschend hoch – bis zu 6 Prozent der Aufgaben scheiterten durch Pod-Fehler, die nicht mit der Fähigkeit des Modells zusammenhingen. Das Problem lag in der Durchsetzung der Ressourcen-Spezifikationen: Die Kubernetes-Implementierung behandelte die pro-Aufgabe definierten Ressourcen als harte Obergrenze, was zu Out-of-Memory-Kills bei transienten Speicherspitzen führte.
Zur Quantifizierung des Effekts wurden Tests über sechs verschiedene Ressourcen-Konfigurationen durchgeführt – von strikter Durchsetzung bis zu komplett unkappten Ressourcen. Die Erfolgsquoten stiegen deutlich mit mehr Ressourcen-Spielraum. Die Infrastruktur-Fehlerrate fiel monoton von 5,8 Prozent bei strikter Durchsetzung auf 0,5 Prozent bei unkappten Ressourcen. Der Unterschied zwischen 1x und 3x Spielraum (5,8 Prozent auf 2,1 Prozent) war statistisch signifikant (p < 0,001). Diese Ergebnisse verdeutlichen, dass Infrastruktur-Konfiguration wesentlich beeinflusst, was Agentic-Coding-Benchmarks tatsächlich messen – und dass die Spezifikation von Ressourcen nicht das gleiche ist wie deren konsistente Durchsetzung.
Quelle: www.anthropic.com