KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation3. Juni 20263. Juni 2026AI Models, Claude CodeShare on:KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval. Share on: