Auf den Punkt: Encoder-Decoder-Kompressoren mit adaptiver Expansion verbessern KV-Cache-Kompressionsmethoden in Geschwindigkeit und Speichereffizienz, ohne nennenswerte Qualitätsverluste.

Anthropic-Forscher haben mit Latent Context Language Models (LCLMs) eine Architektur für die Kompression von langen Eingabevektoren entwickelt, die bestehende KV-Cache-Kompressionsmethoden auf der Genauigkeits-Effizienz-Frontier übertrifft. Die Methode reduziert speicherbedingte Engpässe bei der Verarbeitung langer Kontexte.

Die Inferenz von Large Language Models mit langen Kontexten wird durch den wachsenden KV-Cache limitiert: Bei jeder zusätzlichen Token verdoppelt sich der Speicherverbrauch. Bisherige KV-Cache-Kompressionstechniken zeigen entweder erhebliche Qualitätsverluste oder erfordern lange Verarbeitungszeiten für einen einzelnen langen Prompt. Außerdem sind viele Methoden nicht mit modernen Produktionsinferenz-Engines kompatibel.

Die Arbeit revisitiert encoder-decoder-basierte Kompressionsmethoden, bei denen lange Token-Sequenzen auf kürzere Sequenzen latenter Embeddings abgebildet werden. Die Forscher führten eine Architektur-Suche durch und trainierten verschiedene Varianten von Grund auf neu. Basierend auf diesen Erkenntnissen pre-trainierten sie eine Familie von Modellen mit 0,6-Milliarden-Parameter-Encoder und 4-Milliarden-Parameter-Decoder auf insgesamt über 350 Milliarden Tokens, jeweils mit Kompressionsverhältnissen von 1:4, 1:8 und 1:16.

Die resultierenden LCLMs verbessern die Pareto-Frontier über mehrere Dimensionen: allgemeine Task-Performance, Kompressionsgeschwindigkeit und maximaler Speicherverbrauch. Die Arbeit zeigt, dass LCLMs als effiziente Backbones für längerfristige Agenten fungieren: Der Agent kann eine komprimierte lange Kontexte durchsuchen und relevante Segmente bei Bedarf adaptiv erweitern.

Quelle: arxiv.org · Erschienen 7. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

Encoder-Decoder-Architektur für effiziente Kontext-Kompression in LLMs

Lumi AI News

Rechtliches

Themenbereiche