Deepseek integriert Dspark: Spekulative Decodierung steigert GPU-Auslastung

3. Juli 20263. Juli 2026
AI Models

Deepseek nutzt spekulative Decodierung zur GPU-Optimierung und steigert damit die Token-Verarbeitungsrate, ohne Qualitätseinbußen.

Share on:

LoopCoder-v2: Zwei Schleifen als Optimum für effiziente Modellkomputation beim Programmieren

17. Juni 20264. Juli 2026
AI Models

LoopCoder-v2 mit zwei Schleifen verbessert Code-Reasoning-Benchmarks erheblich (SWE-bench Verified: 43,0 → 64,4 Punkte), während drei oder mehr Schleifen durch wachsende Positionsfehler kontraproduktiv sind.

Share on:

P-EAGLE: Parallele Spekulation für schnellere LLM-Inferenz auf AWS SageMaker

16. Juni 20264. Juli 2026
AI Models

AWS hat mit P-EAGLE eine parallelisierte Variante von Speculative Decoding entwickelt, die Draft-Tokens in einem Forward-Pass statt sequenziell erzeugt und damit Inferenzdurchsatz auf SageMaker AI um bis zu 1,69x erhöht.

Share on:

Latent Context Language Models: Skalierbare KV-Cache-Kompression für lange Kontexte

9. Juni 20264. Juli 2026
AI Models

LCLMs komprimieren KV-Caches durch Encoder-Decoder-Architektur bis 1:16 effizienter als bisherige Verfahren und reduzieren dabei Peak-Memory-Auslastung und Verarbeitungszeit.

Share on:

Encoder-Decoder-Architektur für effiziente Kontext-Kompression in LLMs

9. Juni 20264. Juli 2026
AI Models

Encoder-Decoder-Kompressoren mit adaptiver Expansion verbessern KV-Cache-Kompressionsmethoden in Geschwindigkeit und Speichereffizienz, ohne nennenswerte Qualitätsverluste.

Share on:

RL-gesteuertes Sampling für Test-Time Scaling bei Large Language Models

3. Juni 20264. Juli 2026
AI Models

Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.

Share on:

Deepseek integriert Dspark: Spekulative Decodierung steigert GPU-Auslastung

LoopCoder-v2: Zwei Schleifen als Optimum für effiziente Modellkomputation beim Programmieren

P-EAGLE: Parallele Spekulation für schnellere LLM-Inferenz auf AWS SageMaker

Latent Context Language Models: Skalierbare KV-Cache-Kompression für lange Kontexte

Encoder-Decoder-Architektur für effiziente Kontext-Kompression in LLMs

RL-gesteuertes Sampling für Test-Time Scaling bei Large Language Models

Lumi AI News

Rechtliches

Themenbereiche