LCLMs komprimieren KV-Caches durch Encoder-Decoder-Architektur bis 1:16 effizienter als bisherige Verfahren und reduzieren dabei Peak-Memory-Auslastung und Verarbeitungszeit.
Encoder-Decoder-Kompressoren mit adaptiver Expansion verbessern KV-Cache-Kompressionsmethoden in Geschwindigkeit und Speichereffizienz, ohne nennenswerte Qualitätsverluste.
Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.