Infrastruktur-Ressourcen-Konfiguration kann Agentic-Coding-Benchmark-Scores um bis zu 6 Prozentpunkte verändern. Tests zeigen, dass Fehlerquoten bei mehr Ressourcen-Spielraum sinken, was die Validität von Modellvergleichen auf solchen Benchmarks in Frage stellt.