Tangram: statische KV-Cache-Kompression für schnelleres Multi-Turn-LLM-Serving

16. Juni 20264. Juli 2026
AI Models

Tangram statisch vorhersagbare Speicherbudgets pro Attention-Head, um Fragmentierung und Latenzverschleppung zu eliminieren, die dynamische KV-Cache-Kompression verursacht.

Share on:

DiffusionGemma: Diffusionsbasierte Text-Generierung statt Token-für-Token-Ansatz

10. Juni 20264. Juli 2026
AI Models

DiffusionGemma ersetzt das traditionelle sequenzielle Token-Generierungsverfahren durch parallele Denoisierung von 256-Token-Blöcken, was schnellere Inferenz und bessere Problemlösungsfähigkeiten bei komplexen Aufgaben ermöglicht.

Share on:

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

3. Juni 20264. Juli 2026
AI Models

KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.

Share on:

Tangram: statische KV-Cache-Kompression für schnelleres Multi-Turn-LLM-Serving

DiffusionGemma: Diffusionsbasierte Text-Generierung statt Token-für-Token-Ansatz

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

Lumi AI News

Rechtliches

Themenbereiche