NEUP-EAGLE: Parallele Spekulation für schnellere LLM-Inferenz auf AWS SageMaker16. Juni 202616. Juni 2026AI Models, Claude CodeShare on:AWS hat mit P-EAGLE eine parallelisierte Variante von Speculative Decoding entwickelt, die Draft-Tokens in einem Forward-Pass statt sequenziell erzeugt und damit Inferenzdurchsatz auf SageMaker AI um bis zu 1,69x erhöht. Share on: