Auf den Punkt: AWS hat mit P-EAGLE eine parallelisierte Variante von Speculative Decoding entwickelt, die Draft-Tokens in einem Forward-Pass statt sequenziell erzeugt und damit Inferenzdurchsatz auf SageMaker AI um bis zu 1,69x erhöht.
AWS hat Parallel-EAGLE (P-EAGLE) entwickelt und als Open-Source freigegeben – eine Methode, die Speculative Decoding von einem sequenziellen in einen vollständig parallelisierten Prozess umwandelt. Damit lassen sich auf Amazon SageMaker AI deutlich schnellere Inferenzendpoints deployieren, ohne eigene CUDA-Kernel zu verwalten.
Speculative Decoding ist eine etablierte Technik zur Beschleunigung von LLM-Inferenzen: Ein leichtgewichtiger Draft-Modell generiert mehrere kandidatische nächste Tokens, die ein Ziel-LLM dann in einem einzelnen Forward-Pass verifiziert. Der bisherige Standard EAGLE-3 erzeugt diese Draft-Tokens jedoch autoregressiv – jeder Token hängt vom Ergebnis des vorherigen ab. Möchte man K Kandidaten vorhersagen, benötigt EAGLE-3 somit K sequenzielle Forward-Passes durch den Draft-Head. Diese Latenz wächst linear mit der Spekulationstiefe.
P-EAGLE löst diesen Engpass durch vollständige Parallelisierung: Statt nacheinander Draft-Tokens zu erzeugen, werden alle spekulativen Tokens gleichzeitig in einem einzigen Forward-Pass vorhergesagt. Das Verfahren entkoppelt die Anzahl der Draft-Tokens von der Anzahl der sequenziellen Forward-Passes. Ein praktisches Beispiel: Wenn das Zielmodell das Token „Paris“ generiert, benötigt EAGLE-3 vier sequenzielle Draft-Passes, um die nächsten vier Tokens („, bekannt für seine“) vorherzusagen. P-EAGLE füllt die Positionen 2–4 mit trainierbaren Platzhaltern und prognostiziert alle vier Tokens gleichzeitig. Auf echten Benchmarks mit fortgeschrittener Hardware erreicht P-EAGLE einen Durchsatzgewinn von bis zu 1,69x gegenüber klassischem EAGLE.
Amazon SageMaker JumpStart unterstützt P-EAGLE nun nativ für eine Reihe populärer Foundation-Modelle. Entwickler:innen können dadurch P-EAGLE-beschleunigte Inferenzendpoints mit einer kontrollierten Umgebung deployieren – ohne CUDA-Kernel oder verteilte Serving-Setups selbst zu verwalten. Die Integration erfolgt über wenige Codezeilen: Modell aus dem SageMaker-JumpStart-Katalog auswählen, Parallel-Drafting-Parameter konfigurieren, Endpoint starten.
Benchmark-Ergebnisse zeigen P-EAGLE auf Qwen3-Coder-30B-A3B-Instruct mit NVIDIA B200 GPUs und FP8-Quantisierung durchgehend überlegen gegenüber EAGLE-3 und Baseline-Inferenz (ohne Spekulation), gemessen in Output-Tokens pro Sekunde. Der Vorteil wächst mit höherer Concurrency und größerer Spekulationstiefe (K-Werte).
Quelle: aws.amazon.com · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.