LSA prognostiziert relevante Kontextabschnitte vorab und behält nur diese im GPU-Speicher, wodurch der KV-Cache um über 86 Prozent komprimiert wird, ohne die Genauigkeit zu opfern.
Offene Modelle schließen zur Frontier auf, aber unterschiedliche Benchmarking-Methoden und Evaluationsrahmenbedingungen erschweren verlässliche Leistungsvergleiche zwischen offenen und geschlossenen Systemen.