Auf den Punkt: DiffusionGemma denoisiiert bis zu 256 Token parallel pro Schritt statt einzeln und erreicht auf NVIDIA H100 1.000 Token/Sekunde bei Batch-Size 1 — ohne Cloud-Abhängigkeit.

Google DeepMind hat DiffusionGemma veröffentlicht, ein offenes Sprachmodell, das Text durch parallele Verarbeitung statt sequenzieller Token-Erzeugung generiert. NVIDIA hat die Implementierung für RTX-, RTX PRO- und DGX-Systeme optimiert und erreicht dabei bis zu 4x höhere Durchsätze im Single-User-Betrieb.

Google DeepMind hat DiffusionGemma als experimentelles, offenes Sprachmodell veröffentlicht. Im Gegensatz zu Standard-LLMs, die Text autoregessiv ein Token nach dem anderen erzeugen, nutzt DiffusionGemma einen diffusionsbasierten Ansatz: Das Modell bereinigt in jedem Schritt bis zu 256 Token parallel — ähnlich wie Diffusionsmodelle bei der Bildgenerierung schrittweise Rauschen reduzieren. Damit entfällt das typische sequenzielle Warten auf jedes neue Wort.

Die technische Grundlage ist die Gemma-4-Architektur mit 26 Milliarden Parametern als Mixture-of-Experts (aktiviert pro Schritt: 3,8 Milliarden Parameter). NVIDIA hat das Modell für GeForce RTX GPUs, RTX PRO 6000 Workstations, DGX Spark und DGX Station optimiert. Die Parallelverarbeitung von 256 Tokens pro Schritt ist rechenlastiger als die Memory-Bound-Natur klassischer LLMs bei Batch-Size 1 — genau das, was NVIDIA Tensor Cores effizient beschleunigen. Messungen zeigen: auf einer H100 Tensor Core GPU 1.000 Token/Sekunde, auf DGX Spark etwa 150 Token/Sekunde, auf DGX Station bis 800 Token/Sekunde — durchweg rund 4x schneller als vergleichbare autoregressive Modelle im Single-User-Setup.

DiffusionGemma steht unter Apache-2.0-Lizenz als Open Weights zur Verfügung und läuft vollständig lokal ohne Cloud-Abhängigkeit oder Token-basierte Abrechnung. NVIDIA bietet Tag-eins-Support in Hugging Face Transformers, vLLM und Unsloth an; llama.cpp-Unterstützung folgt. Das Modell richtet sich auf Low-Latency-Szenarien: interaktive Chat-Anwendungen, agentenbasierte Schleifen oder lokale On-Device-Assistenten, die schnelle Reaktionszeiten erfordern.

Quelle: blogs.nvidia.com · Erschienen 10. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

Google DeepMind DiffusionGemma: parallele Textgenerierung auf lokalen GPUs

Lumi AI News

Rechtliches

Themenbereiche