Claw-SWE-Bench: Benchmark für KI-Agenten bei Code-Aufgaben

11. Juni 20264. Juli 2026
AI Models

Das Benchmark-Framework Claw-SWE-Bench zeigt, dass Adapter-Design für Code-Agenten entscheidend ist: mit minimalem Adapter erreicht OpenClaw 19,1% Pass@1, mit vollständigem Adapter 73,4%.

Share on:

Infrastruktur-Rauschen in agentic Coding-Evaluierungen quantifizieren

31. Mai 20264. Juli 2026
AI Models

Infrastruktur-Ressourcen-Konfiguration kann Agentic-Coding-Benchmark-Scores um bis zu 6 Prozentpunkte verändern. Tests zeigen, dass Fehlerquoten bei mehr Ressourcen-Spielraum sinken, was die Validität von Modellvergleichen auf solchen Benchmarks in Frage stellt.

Share on:

Claw-SWE-Bench: Benchmark für KI-Agenten bei Code-Aufgaben

Infrastruktur-Rauschen in agentic Coding-Evaluierungen quantifizieren

Lumi AI News

Rechtliches

Themenbereiche