MiniMax Sparse Attention: Effiziente Long-Context-Verarbeitung für Milliarden-Parameter-Modelle12. Juni 202612. Juni 2026AI Models, Claude CodeShare on:MSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel. Share on: