Auf den Punkt: Ein Framework zum Vorhersagen von Agent-Benchmark-Scores aus günstigen Einzeltests erreicht 85-prozentige Ranking-Genauigkeit bei unter 1 % der Evaluierungskosten.
Forscher präsentieren PACE, ein Framework, das die Performance von LLM-Agenten auf teuren Benchmarks wie SWE-Bench und GAIA aus deutlich günstigeren Einzelkapabilitäts-Tests vorhersagt. Die Methode reduziert Evaluierungskosten auf unter 1 % bei Genauigkeiten im einstelligen Fehlerbereich.
Das Problem liegt in der Skalierbarkeit: Eine vollständige Evaluation von LLM-Agenten auf etablierten Benchmarks kostet mehrere Tausend Dollar und benötigt Tage an Rechenzeit mit komplexer Infrastruktur. Im Gegensatz dazu laufen nicht-agentige Benchmarks, die isolierte Fähigkeiten wie Reasoning oder Code-Generierung testen, schnell und kostengünstig ab.
PACE adressiert diese Lücke durch einen Regressions-Ansatz: Das Framework wählt aus einem Pool bestehender Nicht-Agent-Evaluierungen eine kompakte Untermenge von Instanzen aus, deren aggregierte Scores die Modell-Performance auf Agent-Benchmarks verlässlich vorhersagen. Die Auswahl kombiniert zwei komplementäre Strategien – lokale Instanz-Selektion nach Zielrelevanz und globale Selektion für informative Instanzen.
In Tests mit 14 Modellen, 4 Agent-Benchmarks und 19 Nicht-Agent-Benchmarks erreichte PACE-Bench einen mittleren absoluten Fehler (MAE) unter 4 % bei Leave-One-Out-Kreuzvalidation, Spearman-Korrelationen über 0,80 und eine paarweise Ranking-Genauigkeit um 85 %. Die Kosten lagen dabei unter 1 % einer vollständigen Agent-Evaluation.
Für CTOs ist dies relevant, um während Modellentwicklung, -selection und -routing verlässliche Prognosen zu Agent-Fähigkeiten zu treffen, ohne die Infrastruktur-Überlastung teurer Vollbenchmarks zu tragen. Die Analyse der ausgewählten Proxy-Instanzen offenbarte zudem, welche Einzelfähigkeiten die verschiedenen Agent-Benchmarks jeweils spezifisch fordern.
Quelle: arxiv.org · Erschienen 1. Juli 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.