Auf den Punkt: MSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel.

MiniMax AI stellt MiniMax Sparse Attention (MSA) vor, eine blockweise Sparse-Attention-Architektur für Sprachmodelle mit erweiterten Kontextfenstern. Das Verfahren reduziert die Rechenkosten für Millionen-Token-Kontexte um den Faktor 28,4 und liefert auf H800-GPUs praktische Speedups von 14,2x beim Prefill und 7,6x beim Decoding.

MiniMax Sparse Attention (MSA) adressiert das Skalierungsproblem von Softmax-Attention bei Ultra-Long-Context-Workloads: Agent-Workflows, Repository-Scale-Code-Reasoning und persistente Memory-Systeme benötigen simultane Aufmerksamkeit über Hundertausende bis Millionen Token. Die quadratische Komplexität klassischer Attention macht dies bei Produktionsskalierung untragbar.

MSA arbeitet auf Basis von Grouped Query Attention (GQA) und nutzt einen zweistufigen Ansatz: Ein leichtgewichtiger Index Branch bewertet Key-Value-Blöcke und selektiert pro GQA-Gruppe unabhängig ein Top-k-Subset für group-spezifische Sparse Retrieval. Der Main Branch führt dann exakte Block-Sparse-Attention über die ausgewählten Blöcke durch. Die Architektur verzichtet bewusst auf komplexe Mechanismen zugunsten einfacher, breiter GPU-Kompatibilität.

Die Kernel-Implementierung nutzt exponentialfreie Top-k-Selektion und KV-Outer-Sparse-Attention zur Optimierung der Tensor-Core-Auslastung bei Block-Zugriffsgranularität. An einem 109-Milliarden-Parameter-Modell mit nativem Multimodal-Training erreicht MSA Parität mit Standard-GQA, während die Aufmerksamkeitsberechnung pro Token bei 1-Million-Token-Kontext um 28,4x sinkt. Die gemessenen Wall-Clock-Speedups auf H800-Hardware betragen 14,2x (Prefill) und 7,6x (Decoding).

Der Inference-Kernel ist unter https://github.com/MiniMax-AI/MSA öffentlich verfügbar. Ein produktionsreifer, nativ multimodaler MiniMax-M3-Modell ist auf Hugging Face (https://huggingface.co/MiniMaxAI/MiniMax-M3) bereitgestellt.

Quelle: arxiv.org · Erschienen 10. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

MiniMax Sparse Attention: Effiziente Long-Context-Verarbeitung für Milliarden-Parameter-Modelle

Lumi AI News

Rechtliches

Themenbereiche