MSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel.
Geometric Latent Reasoning approximiert diskrete Denkschritte als kontinuierliche Pfade im Embedding-Raum und erzielt damit kürzere Generierungen bei gleichbleibender oder besserer Genauigkeit.