Auf den Punkt: Uniforme 4-Bit-Formate beheben den systematischen Shrinkage-Bias von E2M1 beim FP4-LLM-Training und ermöglichen konsistent bessere Konvergenz über alle Modellgrößen hinweg.
FP4-Quantisierung spart beim Pretraining großer Sprachmodelle Speicher und Rechenzeit, doch die bisherige E2M1-Formatwahl verursacht systematische Rundungsfehler. Forscher haben mit UFP4 eine alternative Trainingsmethode entwickelt, die uniform verteilte 4-Bit-Gitter nutzt und konsistent bessere Konvergenz zeigt.
Das Problem liegt in der geometrischen Asymmetrie von E2M1, dem derzeit auf GPUs wie NVIDIA Blackwell/Rubin und AMD MI350 Standard-Format. Nicht-uniforme Formate wie E2M1 erleiden systematisch Shrinkage Bias: einen negativen Rundungsfehler, der aus der ungleichmäßigen Verteilung der darstellbaren Zahlenbereiche entsteht. Dieser Fehler akkumuliert sich multiplikativ über Netzwerk-Schichten und wird durch die Random Hadamard Transform (RHT) zusätzlich verstärkt – ein Effekt, der bisherige E2M1-basierte FP4-Trainings destabilisiert.
Die Forscher schlagen UFP4 vor, eine uniform 4-Bit-Trainingsmethode, die RHT auf alle drei Trainings-GEMMs anwendet und stochastisches Rounding nur auf die Gradienten (dY) beschränkt. Im Gegensatz zu E2M1 vermeiden uniforme Gitter wie E1M2 und INT4 diesen Grid-Geometry-Fehler. Das Verfahren wurde auf drei Modellgrößen evaluiert: Dense 1.5B, MoE 7.9B und MoE 124B. UFP4 erreichte in allen Fällen niedrigere Loss-Degradation relativ zu BF16-Referenzen im Vergleich zu etablierten E2M1-Baselines.
Die Skalierungsgesetze und Ablationsstudien bestätigen, dass uniforme Gitter die verbesserte Bucket-Auslastung durch RHT effektiver in höhere Quantisierungsqualität umwandeln als E2M1. Das Ergebnis hat Implikationen für Hardware-Design: Future Accelerators sollten laut den Autoren E1M2/INT4-style uniforme 4-Bit-Gitter als gleichwertige Trainings-Primitive neben E2M1 unterstützen.
Quelle: arxiv.org · Erschienen 17. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.