Auf den Punkt: Ein modifizierter Transformer mit zwei unabhängigen Computation-Streams für Zustandsverwaltung und Token-Vorhersage reduziert die notwendigen Ressourcen und verbessert die Performance um 2–3 Prozentpunkte bei Downstream-Tasks.
Forschende haben eine Transformer-Architektur entwickelt, die die Vorhersage des nächsten Tokens und die Speicherung von Zustandsinformation in zwei getrennte Rechenstränge aufteilt. Die State-Prediction Separation Hypothesis fördert dabei durchgängig bessere Daten- und Recheneffizienz.
Konventionelle Transformer nutzen denselben Forward-Pass, um gleichzeitig das nächste Token vorherzusagen und nützliche Zustandsinformation für künftige Vorhersagen zu speichern. Dies führt zu Zielkonflikten in der Optimierung beider Aufgaben.
Die vorgeschlagene Transformer-Variante spaltet diese Funktionen in zwei getrennte Rechenstränge auf: ein Stream fokussiert auf die unmittelbare Token-Vorhersage, der andere auf die Aktualisierung und Verwaltung des internen Zustands. Dies ermöglicht es dem Modell, jeden Strang für seine spezifische Rolle zu optimieren.
Pretraining-Experimente über verschiedene Modellgrößen hinweg belegen konsistent bessere Validierungsverluste. Bei Downstream-Tasks übertrifft der modifizierte Transformer Standard-Transformer im Schnitt um 2–3 Prozentpunkte. Parallel zeigt sich ein Vorteil in der Daten- und Recheneffizienz – das Modell erreicht bestimmte Leistungsziele mit weniger Trainingsaufwand.
Durch empirische Analysen untersuchen die Autoren mögliche Confounder und demonstrieren grundlegende Unterschiede in den Gradienten-Strukturen zwischen den Architekturen. Die Ergebnisse deuten darauf hin, dass die Entkopplung dieser Funktionen eine fundamentale Verbesserung der Transformer-Design-Prinzipien darstellt, nicht nur eine Hyperparameter-Variation.
Quelle: arxiv.org · Erschienen 30. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.