Auf den Punkt: Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.

Forscher schlagen On-Policy Representation Distillation (OPRD) vor, die Schüler-Modelle nicht nur über Output-Wahrscheinlichkeiten, sondern durch Alignment von versteckten Repräsentationen trainiert — und dabei Speicher und Rechenzeit spart.

Das herkömmliche On-Policy Distillation (OPD) supervisioniert Schüler-Modelle ausschließlich im Output-Raum, indem es die Wahrscheinlichkeitsverteilungen für das nächste Token zwischen Lehrer und Schüler abgleicht. Bei großen Vokabularen wie Qwens ~150.000 Token führt diese Methode jedoch zu persistenter Sampling-Varianz aus Monte-Carlo-KL-Schätzungen während des gesamten Trainings. Zudem werden alle versteckten Zustände des Lehrers nach dem Language-Model-Head verworfen, sodass nur Black-Box-Information genutzt wird.

OPRD behebt diese Probleme, indem es das Distillation ins Hidden-State-Space verlagert und Repräsentationen von Schüler und Lehrer über ausgewählte Layer auf denselben Rollouts abgleicht — komplett ohne LM Head. Theoretisch eliminiert dieser Ansatz die Sampling-Varianz und liefert strukturelle Informationen pro Layer. Praktisch schließt OPRD die Schüler-Lehrer-Lücke auf Benchmarks wie AIME 2024/2025 und AIMO, während Output-Space-OPD-Baselines unter dem Lehrerniveau plateauen.

In Bezug auf Effizienz trainiert OPRD 1,44× schneller und benötigt 54% weniger Speicher als Top-K-OPD. Der Code ist auf GitHub verfügbar (github.com/ShenzhiYang2000/OPRD).

Quelle: arxiv.org · Erschienen 3. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on:

OPRD: Representation Distillation mit versteckten Zuständen schlägt Output-Only-Methode

Lumi AI News

Rechtliches

Themenbereiche