NEUVariable-Width Transformers: Ungleichmäßige Kapazitätsverteilung über Layern17. Juni 202617. Juni 2026AI ModelsShare on:Unterschiedliche Layer erfüllen unterschiedliche Rollen und könnten daher eine ungleichmäßige Verteilung von Parametern und Rechenressourcen ermöglichen als alternative zu konstanter Architektur-Breite. Share on: