Lookahead Sparse Attention: DeepSeek-V4 reduziert KV-Cache auf 13,5 Prozent9. Juni 202610. Juni 2026AI Models, Claude CodeShare on:LSA prognostiziert relevante Kontextabschnitte vorab und behält nur diese im GPU-Speicher, wodurch der KV-Cache um über 86 Prozent komprimiert wird, ohne die Genauigkeit zu opfern. Share on: