InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen26. Juni 20264. Juli 2026AI ModelsInfoKV kombiniert Attention-Scores mit Unsicherheitssignalen zur KV-Cache-Kompression und übertrifft damit reine Attention-basierte Methoden bei langem Reasoning um messbare Margen. Share on: