Auf den Punkt: ZPPO integriert Lehrermodelle als Prompt-Komponenten statt als Gradienten und verbessert damit die Generalisierung beim Wissenstransfer auf kleine Modelle.

Forscher der Alibaba-Gruppe präsentieren Zone of Proximal Policy Optimization (ZPPO), ein Verfahren zur Wissenstransfer auf kleine Sprachmodelle, das Lehrmodelle in den Eingabetext statt in den Trainingsprozess integriert.

Das zentrale Problem klassischer Knowledge Distillation: Wenn ein großes Lehrmodell seine Logits (Rohdaten vor der Wahrscheinlichkeitsumwandlung) an ein deutlich kleineres Schülermodell übermittelt, konzentriert sich das Schülermodell auf die sharfesten Muster des Lehrmodells und generalisiert schlechter auf neue Aufgaben außerhalb der Trainingsverteilung.

ZPPO verfolgt einen anderen Weg, inspiriert von Vygotskys pädagogischem Konzept der „Zone of Proximal Development“. Statt die Lehrerkompetenzen in den Gradient-Update zu zwingen, werden zwei speziell reformulierte Prompt-Typen konstruiert: Binary Candidate-included Questions (BCQ) präsentieren eine korrekte Antwort des Lehrmodells und eine fehlerhafte Antwort des Schülermodells als anonyme Kandidaten zur Diskriminierung. Negative Candidate-included Questions (NCQ) aggregieren mehrere falsche Versuche des Schülers in einen Prompt, um gemeinsame Fehlermuster sichtbar zu machen. Ein Replay-Buffer zirkuliert schwierige Fragen so lange, bis die mittlere Genauigkeit des Schülers mindestens 50 Prozent erreicht.

Tests auf der Qwen3.5-Familie mit vier Schülermodellen (0,8B bis 9B Parameter) und einem 27B-Lehrmodell zeigen: ZPPO übertrfft klassische Off-Policy- und On-Policy-Distillation sowie GRPO-Baselines. Der größte Vorteil liegt bei den kleinsten Modellen. Die Evaluierung umfasst 31 Benchmarks (16 Vision-Language-Tests, 10 reine Sprachtests, 5 Video-Tests).

Quelle: arxiv.org · Erschienen 15. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

ZPPO: Lehrermodelle als Prompts statt als Gradienten

Lumi AI News

Rechtliches

Themenbereiche