Tangram: statische KV-Cache-Kompression für schnelleres Multi-Turn-LLM-Serving16. Juni 20264. Juli 2026AI ModelsTangram statisch vorhersagbare Speicherbudgets pro Attention-Head, um Fragmentierung und Latenzverschleppung zu eliminieren, die dynamische KV-Cache-Kompression verursacht. Share on: