Zum Inhalt springen

Post-Training-Rezepte an der Grenze: Von InstructGPT zu MOPD-Spezialistensystemen

Share on:

Auf den Punkt: Post-Training migriert von monolithischen RL-Pipelines zu dezentralisierten Spezialistensystemen, die durch On-Policy-Distillation zu einer Generalistenschüler verschmolzen werden – ein Skalierungsmuster, das Konflikte zwischen Fähigkeitsbereichen auflöst.

Die Post-Training-Methodik von Large Language Models hat sich im letzten Jahr stärker verändert als in den drei Jahren davor. Frontier-Modelle setzen 2026 zunehmend auf Multi-Teacher On-Policy Distillation (MOPD) – ein Paradigma, das Spezialistennetzwerke mit dezentraler Skalierbarkeit verbindet.

Evolution der Post-Training-Pipeline: InstructGPT (2022) folgte einem linearen Dreischritt-Rezept aus Supervised Fine-Tuning (SFT), Reward-Modell-Training und PPO-basiertem Reinforcement Learning. Bis 2024 etablierten sich bei offenen Modellen wie Llama 3 und Tülu 3 mehrstufige Pipelines mit SFT → DPO → RL mit verifizierbaren Rewards, während geschlossene Systeme komplexere Multi-Stage-RLHF-Varianten nutzen. DeepSeek R1 (2025) brachte ein Wendepunkt: Large-Scale Reasoning-RL als Kernkomponente.

MOPD als neuer Standard: Multi-Teacher On-Policy Distillation (MOPD) ist das Muster, das sich 2026 bei Frontier-Modellen durchsetzt. Das Verfahren trainiert N spezialisierte Lehrer-Modelle (jeweils: SFT, dann RL auf relevante Domänen). Ein generalistisches Schüler-Modell wird durch Sampling eigener Trajektorien trainiert und minimiert bei jedem Rollout die Reverse-KL-Divergenz zu den Ausgabeverteilungen der relevanten Lehrer-Modelle, Token für Token. MiMo Flash V2 führte MOPD ein; DeepSeek V4 und Nvidia Nemotron 3 Ultra skalieren das Verfahren auf über zehn Lehrer.

Motivation für Spezialisierung: Monolithisches RL wurde bei heterogenen Aufgaben (Mathematik, Code, agentenbasierte Aufgaben) kostspieliger und konfliktanfälliger, da Capability-Trade-offs entstanden. Spezialistmodelle lassen sich kostengünstig trainieren und sind organisatorisch skalierbar: SFT gefolgt von domänenspezifischem RL ist ein gut verstandener, parallelisierbarer Prozess. Gleichzeitig reifte On-Policy-Distillation durch theoretische Fortschritte und praktische Erfahrungen in der RLVR-Literatur.


Quelle: www.interconnects.ai · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: