Auf den Punkt: Das Benchmark-Framework Claw-SWE-Bench zeigt, dass Adapter-Design für Code-Agenten entscheidend ist: mit minimalem Adapter erreicht OpenClaw 19,1% Pass@1, mit vollständigem Adapter 73,4%.

Ein neues Benchmark-Framework macht KI-Agenten im Stil von OpenClaw bei Programmieraufgaben vergleichbar. Claw-SWE-Bench standardisiert Prompt, Laufzeitbudget und Bewertungsprozedur über heterogene Agent-Implementierungen hinweg.

Autonome KI-Agenten wie OpenClaw werden zunehmend als Werkzeug-Nutzer eingesetzt, ihre Fähigkeit zur Lösung von Programmieraufgaben lässt sich jedoch unter dem bestehenden SWE-bench-Standard schwer messen. Generische Agenten erfüllen nicht von selbst die Docker-Workspace-, Patch- und Prediction-Anforderungen für standardisierte Bewertung. Claw-SWE-Bench führt ein Adapter-Protokoll ein, das heterogene Agent-Harnesses unter einheitlichen Bedingungen vergleichbar macht: identische Prompts, fixes Laufzeitbudget, standardisierter Workspace-Vertrag, einheitliche Patch-Extraktion und Evaluator.

Das Vollbenchmark umfasst 350 GitHub-Issue-Auflösungsinstanzen über 8 Programmiersprachen und 43 Repositories, entnommen aus SWE-bench-Multilingual und SWE-bench-Verified-Mini. Parallel wird Claw-SWE-Bench Lite als 80-instanzige Schnellvalidierungsvariante bereitgestellt, ausgewählt durch ein kostenoptimiertes Ranking-Verfahren über 17 Kalibrierungsdimensionen. OpenClaw mit minimalem Direct-Diff-Adapter erreicht auf dem Vollbenchmark nur 19,1% Pass@1, mit vollständigem Adapter dagegen 73,4% bei identischem GLM-5.1-Backbone – ein Sprung von 54,3 Prozentpunkten.

Systemübergreifend variiert die Modellwahl die Pass@1-Quote um 29,4 Prozentpunkte, die Harness-Wahl um 27,4 Prozentpunkte bei festgehaltenen Modellen. Systeme mit ähnlicher Genauigkeit unterscheiden sich deutlich in Gesamtkosten für API-Aufrufe. Claw-SWE-Bench behandelt Harness-Design und Kostenrechnung als gleichberechtigte Evaluationsdimensionen für Code-Agenten. Die Daten sind auf GitHub und HuggingFace verfügbar.

Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

Claw-SWE-Bench: Benchmark für KI-Agenten bei Code-Aufgaben

Lumi AI News

Rechtliches

Themenbereiche