KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.
Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.