DiffusionGemma ersetzt das traditionelle sequenzielle Token-Generierungsverfahren durch parallele Denoisierung von 256-Token-Blöcken, was schnellere Inferenz und bessere Problemlösungsfähigkeiten bei komplexen Aufgaben ermöglicht.
KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.