Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.
Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.