Zum Inhalt springen

Google DeepMind DiffusionGemma: parallele Textgenerierung auf lokalen GPUs

Share on:

Auf den Punkt: DiffusionGemma denoisiiert bis zu 256 Token parallel pro Schritt statt einzeln und erreicht auf NVIDIA H100 1.000 Token/Sekunde bei Batch-Size 1 — ohne Cloud-Abhängigkeit.

Google DeepMind hat DiffusionGemma veröffentlicht, ein offenes Sprachmodell, das Text durch parallele Verarbeitung statt sequenzieller Token-Erzeugung generiert. NVIDIA hat die Implementierung für RTX-, RTX PRO- und DGX-Systeme optimiert und erreicht dabei bis zu 4x höhere Durchsätze im Single-User-Betrieb.

Google DeepMind hat DiffusionGemma als experimentelles, offenes Sprachmodell veröffentlicht. Im Gegensatz zu Standard-LLMs, die Text autoregessiv ein Token nach dem anderen erzeugen, nutzt DiffusionGemma einen diffusionsbasierten Ansatz: Das Modell bereinigt in jedem Schritt bis zu 256 Token parallel — ähnlich wie Diffusionsmodelle bei der Bildgenerierung schrittweise Rauschen reduzieren. Damit entfällt das typische sequenzielle Warten auf jedes neue Wort.

Die technische Grundlage ist die Gemma-4-Architektur mit 26 Milliarden Parametern als Mixture-of-Experts (aktiviert pro Schritt: 3,8 Milliarden Parameter). NVIDIA hat das Modell für GeForce RTX GPUs, RTX PRO 6000 Workstations, DGX Spark und DGX Station optimiert. Die Parallelverar­beitung von 256 Tokens pro Schritt ist rechenlastiger als die Memory-Bound-Natur klassischer LLMs bei Batch-Size 1 — genau das, was NVIDIA Tensor Cores effizient beschleunigen. Messungen zeigen: auf einer H100 Tensor Core GPU 1.000 Token/Sekunde, auf DGX Spark etwa 150 Token/Sekunde, auf DGX Station bis 800 Token/Sekunde — durchweg rund 4x schneller als vergleichbare autoregressive Modelle im Single-User-Setup.

DiffusionGemma steht unter Apache-2.0-Lizenz als Open Weights zur Verfügung und läuft vollständig lokal ohne Cloud-Abhängigkeit oder Token-basierte Abrechnung. NVIDIA bietet Tag-eins-Support in Hugging Face Transformers, vLLM und Unsloth an; llama.cpp-Unterstützung folgt. Das Modell richtet sich auf Low-Latency-Szenarien: interaktive Chat-Anwendungen, agentenbasierte Schleifen oder lokale On-Device-Assistenten, die schnelle Reaktionszeiten erfordern.


Quelle: blogs.nvidia.com · Erschienen 10. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: