Auf den Punkt: LCLMs komprimieren KV-Caches durch Encoder-Decoder-Architektur bis 1:16 effizienter als bisherige Verfahren und reduzieren dabei Peak-Memory-Auslastung und Verarbeitungszeit.

Forscher haben mit Latent Context Language Models (LCLMs) eine neue Kompressionsarchitektur entwickelt, die den KV-Cache von Language Models effizienter reduziert. Die Encoder-Decoder-Kompressoren ermöglichen Speicherersparnisse bis 1:16 ohne nennenswerte Qualitätseinbußen und beschleunigen die Verarbeitung langer Eingabesequenzen.

Das Hauptproblem bei der Verarbeitung langer Kontexte in Language Models ist der KV-Cache (Key-Value-Cache), dessen Speicherbedarf linear mit der Kontextlänge wächst. Bisherige Kompressionsverfahren zeigen Nachteile: Sie verschlechtern die Modellqualität erheblich oder benötigen beträchtliche Rechenzeit zur Kompression eines einzelnen langen Prompts. Hinzu kommt, dass viele Methoden voraussetzen, dass die Eingabe in das Kontextfenster des Zielmodells passt, und nicht mit modernen Production-Inference-Engines kompatibel sind.

Die Forscher verfolgen einen Encoder-Decoder-Ansatz: Lange Token-Sequenzen werden auf kürzere Sequenzen von latenten Einbettungen abgebildet, die ein Decoder verarbeitet. Durch systematische Architektur-Suche mit Vortraining mehrerer Varianten entwickelten sie die LCLM-Familie mit 0,6B-Encoder und 4B-Decoder-Modellen. Diese wurden auf über 350 Milliarden Tokens mit Kompressionsverhältnissen von 1:4, 1:8 und 1:16 kontinuierlich vortrainiert.

LCLMs verbessern die Pareto-Grenze across allgemeinen Task-Performance, Kompressionsgeschwindigkeit und Peak-Memory-Nutzung. Als praktische Anwendung fungieren sie als effiziente Backbones für long-horizon Agents: Diese können lange komprimierte Kontexte überfliegen und bei Bedarf relevante Segmente adaptiv expandieren. Damit wird ein Ansatz praktisch, der über längere Zeit fokussierte Informationen auswählen und aufgreifen kann.

Quelle: arxiv.org · Erschienen 7. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

Latent Context Language Models: Skalierbare KV-Cache-Kompression für lange Kontexte

Lumi AI News

Rechtliches

Themenbereiche