PACE: Prognosen für Agent-Benchmarks aus günstigen Einzeltests3. Juli 20263. Juli 2026AI ModelsEin Framework zum Vorhersagen von Agent-Benchmark-Scores aus günstigen Einzeltests erreicht 85-prozentige Ranking-Genauigkeit bei unter 1 % der Evaluierungskosten. Share on: