MSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel.
Die Ausrichtung von Router-Zeilen an den mathematischen Hauptrichtungen ihrer zugeordneten Expert-Matrizen verbessert die Effizienz und Stabilität von Mixture-of-Experts-Modellen.
Firmen-KI-Ausgaben sind außer Kontrolle geraten; OpenAI verspricht effizientere Modelle, während das Jevons-Paradoxon längerfristig wieder steigende Nachfrage antreiben könnte.
Geometric Latent Reasoning approximiert diskrete Denkschritte als kontinuierliche Pfade im Embedding-Raum und erzielt damit kürzere Generierungen bei gleichbleibender oder besserer Genauigkeit.