Kimi K3: Chinesisches Sprachmodell mit 2,8 Billionen Parametern veröffentlicht

28. Juli 202628. Juli 2026
AI Models

Kimi K3 als offenes Frontier-Modell mit nativer Vision, Million-Token-Kontext und 2,5-fach besserer Skalierungseffizienz gegenüber K2, bei Veröffentlichung aller Gewichte.

Share on:

LongStraw: Reinforcement Learning auf Millionen Tokens im fixen GPU-Budget

17. Juli 202617. Juli 2026
AI Models

LongStraw ermöglicht RL-Training auf 2,1 Millionen Tokens mit Group Relative Policy Optimization (GRPO) auf acht H20 GPUs, indem es Speicherzugriffe optimiert und Berechnungsdiagramme durch Replay von Response-Branches komprimiert.

Share on:

Self-Guided Test-Time Training verbessert Long-Context-Verarbeitung in LLMs

13. Juli 202613. Juli 2026
AI Models

Self-Guided TTT verbessert die Long-Context-Verarbeitung, indem das Modell selbst relevante Textpassagen vor der Parameteradaptation identifiziert, statt zufällig Spans auszuwählen.

Share on:

Sparse Delta Memory: Lineare RNNs mit sparsem Speicher skalieren State-Größe deutlich

9. Juli 20269. Juli 2026
AI Models

Sparse Delta Memory erhöht die State-Kapazität linearer RNNs deutlich, ohne die Rechenkosten zu erhöhen, und verbessert damit Long-Context und Reasoning-Performance.

Share on:

FlashMorph: Automatische Auswahl von Attention-Layern in Hybrid-Modellen

3. Juli 20264. Juli 2026
AI Models

FlashMorph konvertiert Transformer zu Hybrid-Attention-Modellen, indem es optimal bestimmt, welche Layer volle Attention brauchen und welche durch lineare Attention ersetzt werden können.

Share on:

InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

26. Juni 20264. Juli 2026
AI Models

InfoKV kombiniert Attention-Scores mit Unsicherheitssignalen zur KV-Cache-Kompression und übertrifft damit reine Attention-basierte Methoden bei langem Reasoning um messbare Margen.

Share on:

EvoEmbedding: Kontextabhängige Embeddings für lange Sequenzen

23. Juni 20264. Juli 2026
AI Models

EvoEmbedding nutzt einen aktualisierten latenten Speicher während der sequenziellen Verarbeitung, um für dieselbe Anfrage adaptive, kontextabhängige Embeddings zu generieren.

Share on:

MiniMax Sparse Attention: Effiziente Long-Context-Verarbeitung für Milliarden-Parameter-Modelle

12. Juni 20264. Juli 2026
AI Models

MSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel.

Share on:

Hybride LLMs verlieren Long-Context-Fähigkeiten durch CoT-Feintuning

10. Juni 20264. Juli 2026
AI Models

CoT-Feintuning degradiert Long-Context-Retrieval in hybriden LLMs durch Verzerrung der Query-Key-Projektionen; QK-Restore behebt dies ohne zusätzliches Training.

Share on:

Lookahead Sparse Attention: DeepSeek-V4 reduziert KV-Cache auf 13,5 Prozent

9. Juni 20264. Juli 2026
AI Models

LSA prognostiziert relevante Kontextabschnitte vorab und behält nur diese im GPU-Speicher, wodurch der KV-Cache um über 86 Prozent komprimiert wird, ohne die Genauigkeit zu opfern.

Share on:

Latent Context Language Models: Skalierbare KV-Cache-Kompression für lange Kontexte

9. Juni 20264. Juli 2026
AI Models

LCLMs komprimieren KV-Caches durch Encoder-Decoder-Architektur bis 1:16 effizienter als bisherige Verfahren und reduzieren dabei Peak-Memory-Auslastung und Verarbeitungszeit.

Share on:

Encoder-Decoder-Architektur für effiziente Kontext-Kompression in LLMs

9. Juni 20264. Juli 2026
AI Models

Encoder-Decoder-Kompressoren mit adaptiver Expansion verbessern KV-Cache-Kompressionsmethoden in Geschwindigkeit und Speichereffizienz, ohne nennenswerte Qualitätsverluste.

Share on:

Kimi K3: Chinesisches Sprachmodell mit 2,8 Billionen Parametern veröffentlicht

LongStraw: Reinforcement Learning auf Millionen Tokens im fixen GPU-Budget

Self-Guided Test-Time Training verbessert Long-Context-Verarbeitung in LLMs

Sparse Delta Memory: Lineare RNNs mit sparsem Speicher skalieren State-Größe deutlich

FlashMorph: Automatische Auswahl von Attention-Layern in Hybrid-Modellen

InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

EvoEmbedding: Kontextabhängige Embeddings für lange Sequenzen

MiniMax Sparse Attention: Effiziente Long-Context-Verarbeitung für Milliarden-Parameter-Modelle

Hybride LLMs verlieren Long-Context-Fähigkeiten durch CoT-Feintuning

Lookahead Sparse Attention: DeepSeek-V4 reduziert KV-Cache auf 13,5 Prozent

Latent Context Language Models: Skalierbare KV-Cache-Kompression für lange Kontexte

Encoder-Decoder-Architektur für effiziente Kontext-Kompression in LLMs

Lumi AI News

Rechtliches

Themenbereiche