KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

3. Juni 20264. Juli 2026
AI Models

KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.

Share on:

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

Lumi AI News

Rechtliches

Themenbereiche