Zum Inhalt springen

Mixture-of-Experts Router durch Manifold Power Iteration optimiert

Share on:

Auf den Punkt: Die Ausrichtung von Router-Zeilen an den mathematischen Hauptrichtungen ihrer zugeordneten Expert-Matrizen verbessert die Effizienz und Stabilität von Mixture-of-Experts-Modellen.

Forscher schlagen ein neues Designprinzip für Router in Mixture-of-Experts-Modellen vor, das die Router-Zeilen an den principal singular directions der jeweiligen Expert-Matrizen ausrichtet. Der Ansatz namens Manifold Power Iteration zielt darauf ab, die Auswahl der aktivierten Experten effizienter und stabiler zu gestalten.

In Mixture-of-Experts-Modellen (MoE) fungiert der Router als Schlüsselkomponente zur Auswahl der aktivierten Experten. Die Zeilen der Router-Matrix berechnen ihre Ähnlichkeit zu den MoE-Eingaben, um zu bestimmen, welche Experten verarbeitet werden. Ideal sollte jede Router-Zeile die zugehörige Expert-Matrix in einen repräsentativen Vektor verdichten, dessen Skalarprodukt mit einem Token die Token-Expert-Affinität besser abbildet. Bislang gab es jedoch keine systematischen Designprinzipien, um diese Kondensation zu erzwingen.

Die vorgeschlagene Lösung Manifold Power Iteration (MPI) basiert auf dem Prinzip, jede Router-Zeile mit der principal singular direction der zugeordneten Expert-Matrix auszurichten. Diese mathematische Hauptrichtung bietet die aussagekräftigste Beschreibung einer Matrix. MPI führt einen sogenannten „Power-then-Retract“-Prozess durch: Ein Power-Iteration-Schritt wird auf die Router-Gewichte angewendet, gefolgt von einer Retraktion zur Durchsetzung einer Norm-Beschränkung. Dies stellt sicher, dass sowohl Recheneffizienz als auch numerische Stabilität erhalten bleiben.

Theoretisch lässt sich zeigen, dass MPI die Router-Zeilen gegen die principal singular directions ihrer zugeordneten Experten konvergieren lässt. Empirische Vortrainings-Experimente über Modellgrößen von 1 Milliarde bis 11 Milliarden Parametern bestätigen, dass diese Ausrichtung zu effektiveren MoE-Modellen führt. Die Ergebnisse deuten darauf hin, dass die Optimierung der Router-Architektur ein produktives Feld für weitere Entwicklungen im Bereich großer Sprachmodelle bleibt.


Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: