Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.
ThoughtFold identifiziert und entfernt überflüssige Explorations-Schritte in Reasoning-Ketten, senkt den Token-Verbrauch um 56% bei DeepSeek-R1-Distill-Qwen-7B und erhält dabei State-of-the-Art-Genauigkeit.