DiffusionGemma denoisiiert bis zu 256 Token parallel pro Schritt statt einzeln und erreicht auf NVIDIA H100 1.000 Token/Sekunde bei Batch-Size 1 — ohne Cloud-Abhängigkeit.
DiffusionGemma ersetzt das traditionelle sequenzielle Token-Generierungsverfahren durch parallele Denoisierung von 256-Token-Blöcken, was schnellere Inferenz und bessere Problemlösungsfähigkeiten bei komplexen Aufgaben ermöglicht.