Gefrorenes 12B-Modell erreicht 100%-Genauigkeit bei verifizierten Aufgaben ohne Token-Verbrauch

28. Juli 202628. Juli 2026
AI Models

Ein gefrorenes 12B-Modell kombiniert mit verifiziertem Lösungsspeicher erreicht 100%-Genauigkeit bei verifizierten Problemfamilien mit null Token-Verbrauch und deterministischen, bitgenauen Ergebnissen.

Share on:

Smartsheet verbindet KI-Agenten über MCP-Server mit AWS-Infrastruktur

17. Juli 202617. Juli 2026
AI Models

Smartsheet betreibt einen MCP-Server auf AWS, der KI-Agenten strukturierten Zugang zu Plattformdaten gibt und durch Token-Optimierungen bislang 3 Milliarden Tokens gespart hat.

Share on:

InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

26. Juni 20264. Juli 2026
AI Models

InfoKV kombiniert Attention-Scores mit Unsicherheitssignalen zur KV-Cache-Kompression und übertrifft damit reine Attention-basierte Methoden bei langem Reasoning um messbare Margen.

Share on:

Sprachkompression in LLMs: Output-Optimierung spart Kosten, Input-Reduktion erhöht sie

25. Juni 20264. Juli 2026
AI Models

Output-Kompression reduziert Inferenzkosten effektiv, während Input-Kompression die Gesamtkosten erhöht und die Antwortqualität verschlechtert.

Share on:

Bebop: Rejection Sampling verbessert Multi-Token-Prediction in RL-Training

11. Juni 20264. Juli 2026
AI Models

Bebop nutzt Rejection Sampling und TV-Loss-Optimierung, um MTP-Akzeptanzraten in RL-Training stabil zu halten und Rollouts um bis zu 1,8-fach zu beschleunigen.

Share on:

Hybride LLMs verlieren Long-Context-Fähigkeiten durch CoT-Feintuning

10. Juni 20264. Juli 2026
AI Models

CoT-Feintuning degradiert Long-Context-Retrieval in hybriden LLMs durch Verzerrung der Query-Key-Projektionen; QK-Restore behebt dies ohne zusätzliches Training.

Share on:

Lookahead Sparse Attention: DeepSeek-V4 reduziert KV-Cache auf 13,5 Prozent

9. Juni 20264. Juli 2026
AI Models

LSA prognostiziert relevante Kontextabschnitte vorab und behält nur diese im GPU-Speicher, wodurch der KV-Cache um über 86 Prozent komprimiert wird, ohne die Genauigkeit zu opfern.

Share on:

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

3. Juni 20264. Juli 2026
AI Models

KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.

Share on:

Gefrorenes 12B-Modell erreicht 100%-Genauigkeit bei verifizierten Aufgaben ohne Token-Verbrauch

Smartsheet verbindet KI-Agenten über MCP-Server mit AWS-Infrastruktur

InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

Sprachkompression in LLMs: Output-Optimierung spart Kosten, Input-Reduktion erhöht sie

Bebop: Rejection Sampling verbessert Multi-Token-Prediction in RL-Training

Hybride LLMs verlieren Long-Context-Fähigkeiten durch CoT-Feintuning

Lookahead Sparse Attention: DeepSeek-V4 reduziert KV-Cache auf 13,5 Prozent

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

Lumi AI News

Rechtliches

Themenbereiche