Auf den Punkt: Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.
Forscher haben ein Rahmenwerk entwickelt, das KI-Agenten zur Softwareentwicklung durch ihre eigenen Lösungsspuren trainiert – statt über künstliche Aufgaben mit vordefinierten Fehlern. Das System erreicht 50,40 % Genauigkeit auf dem SWE-bench Verified Benchmark nach drei Trainingsrunden.
Das Problem: Bisherige Methoden zum Trainieren von LLM-getriebenen Software-Engineering-Agenten generieren Aufgaben durch feste Mutations- oder Bug-Injektions-Verfahren. Das führt dazu, dass die entstehenden Aufgabenverteilungen unabhängig von den tatsächlichen Schwächen des Agenten und seinem Trainingsfortschritt sind – eine Verschwendung von Rechenressourcen.
Die Lösung – Socratic-SWE: Das vorgestellte Framework nutzt einen Regelkreis: Es extrahiert aus den historischen Lösungsspuren des Agenten strukturierte „Agent Skills“, die wiederkehrende Fehlermuster und effektive Reparaturstrategien zusammenfassen. Diese Skills werden dann zur gezielten Generierung von Trainingsaufgaben in echten Code-Repositories herangezogen. Die Kandidatenaufgaben werden durch Ausführungs-Tests validiert und mit einem „Solver-Gradient Alignment“-Reward bewertet, um sicherzustellen, dass nur verifizierbare und tatsächlich nützliche Aufgaben ins Training gehen. Mit jeder neuen Agent-Generation entstehen neue Spuren, die den Trainings-Lehrplan dynamisch anpassen.
Ergebnisse: Auf mehreren Benchmarks – SWE-bench Verified, SWE-bench Lite, SWE-bench Pro und Terminal-Bench 2.0 – zeigt Socratic-SWE konsistente Verbesserungen gegenüber anderen selbstlernenden Baselines bei gleicher Rechenzeit. Nach drei Iterationen erreicht es 50,40 % auf SWE-bench Verified.
Praktische Bedeutung für Engineers: Das Ansatz zeigt, dass Lösungsspuren eines Agenten als skalierbare Grundlage für Training dienen können, ohne externe Fehlerinjektionen. Für Engineers bedeutet das: Bessere und zielgenauere KI-Agenten für Code-Review, Bug-Fixes und Refactoring, die ihre Schwächen selbst identifizieren und adressieren.
Quelle: arxiv.org · Erschienen 4. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.