Zum Inhalt springen

Lookahead Sparse Attention: DeepSeek-V4 reduziert KV-Cache auf 13,5 Prozent

Share on:

Auf den Punkt: LSA prognostiziert relevante Kontextabschnitte vorab und behält nur diese im GPU-Speicher, wodurch der KV-Cache um über 86 Prozent komprimiert wird, ohne die Genauigkeit zu opfern.

Forscher haben Lookahead Sparse Attention (LSA) entwickelt, ein Inferenzverfahren für DeepSeek-V4, das den GPU-Speicherverbrauch für lange Kontexte drastisch senkt. Die Methode reduziert den KV-Cache durchschnittlich auf 13,5 Prozent der Ausgangsgröße und behält dabei die Modellgenauigkeit.

Konventionelle Large Language Models laden während der Dekodierung den vollständigen Key-Value-Cache, was bei der Verarbeitung ultralan­ger Kontexte zu erheblichen GPU-Speicherbottenecks führt. Forscher schlagen Lookahead Sparse Attention vor, ein Verfahren, das nicht alle historischen Token passiv berücksichtigt, sondern proaktiv vorhersagt, welche Kontextabschnitte für die Anfrage relevant sind. Nur diese kritischen KV-Chunks werden im GPU-Speicher gehalten.

Das Verfahren nutzt einen Neural Memory Indexer auf Basis der DeepSeek-V4-Architektur. Das Kernmerkmal: Der Indexer wird rückgekoppelungsfrei trainiert — formuliert als Dual-Encoder funktioniert er mit Standard-Retrieval-Trainingsrahmen, ohne dass das massive Backbone-Modell in den GPU-Speicher geladen werden muss. Dies macht das Training erheblich effizienter.

Evaluierungen über etablierte Benchmarks (LongBench-v2, LongMemEval, RULER) zeigen, dass der physische KV-Cache-Fußabdruck auf durchschnittlich 13,5 Prozent des Ausgangsumfangs komprimiert wird, während die Downstream-Genauigkeit erhalten bleibt oder um durchschnittlich 0,6 Prozent ansteigt. Bei extremen 500K-Token-Längenskalen unterdrückt FlashMemory-DeepSeek-V4 den KV-Cache-Overhead um über 90 Prozent, ohne die Reasoning-Fähigkeiten des Modells zu destabilisieren.


Quelle: arxiv.org · Erschienen 7. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: