Post-Training migriert von monolithischen RL-Pipelines zu dezentralisierten Spezialistensystemen, die durch On-Policy-Distillation zu einer Generalistenschüler verschmolzen werden – ein Skalierungsmuster, das Konflikte zwischen Fähigkeitsbereichen auflöst.