Auf den Punkt: Unterschiedliche Layer erfüllen unterschiedliche Rollen und könnten daher eine ungleichmäßige Verteilung von Parametern und Rechenressourcen ermöglichen als alternative zu konstanter Architektur-Breite.
Forscher untersuchen, wie Transformer-Modelle ihre Parameter effizienter nutzen könnten, indem sie die Breite (Width) der Netzwerk-Layer variabel gestalten statt sie gleichmäßig zu verteilen.
Bisherige Skalierungsansätze für Transformer-basierte Sprachmodelle konzentrieren sich primär auf die Vergrößerung von Tiefe und Breite des Netzwerks. Die Mehrzahl etablierter Architekturen behält jedoch über alle Layer hinweg eine konstante Breite bei und verteilt Parameter- sowie Rechenbudget gleichmäßig – unabhängig davon, dass unterschiedliche Layer potenziell unterschiedliche rechnerische Aufgaben übernehmen.
In einer empirischen Untersuchung erforschen die Autoren eine nicht-uniforme Kapazitätsverteilung über die Netzwerktiefe. Dabei wird ein zeitwertiges Muster (times-shaped pattern) zur Modulation der Layer-Breiten erprobt, bei dem die Netzwerkbreite an der Position im Modell variiert.
Der Ansatz ermöglicht es, innerhalb eines fixen Gesamt-Rechenbudgets zu bleiben, während Parameter gezielt dort konzentriert werden, wo sie empirisch den höchsten Mehrwert leisten. Dies könnte für CTOs bei der Optimierung von Trainingskosten und Inferenz-Latenz sowie bei der Kalibrierung von Hardware-Ressourcen-Allokation relevant sein.
Quelle: arxiv.org · Erschienen 15. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.