Skill Self-Play: Neue Co-Evolution für LLM-Trainingsmethoden

27. Juli 202627. Juli 2026
AI Models

Skill Self-Play kombiniert Aufgabengenerierung, Lösungssuche und eine dynamische Fähigkeitskontrolle in einer Reinforcement-Learning-Schleife, um sowohl Aufgabenvielfalt als auch Trainings-Zuverlässigkeit zu erreichen.

Share on:

CausalMix: Daten-Mischverhältnisse durch kausale Inferenz optimieren

2. Juli 20264. Juli 2026
AI Models

CausalMix nutzt kausale Modellierung statt statischer Annahmen, um optimale Daten-Mischverhältnisse zu finden, die über unterschiedliche Datenpoolgrößen und Modellskalen generalisieren.

Share on:

iLLaDA: 8B-Sprachmodell mit bidirektionaler Diffusion trainiert

25. Juni 202626. Juni 2026
AI Models

iLLaDA zeigt, dass vollständig bidirektionales Diffusions-Training von Grund auf ein konkurrenzkräftiger Weg zu starken Sprachmodellen sein kann, auch ohne autoregressives Training.

Share on:

NVIDIA Blackwell auf Amazon SageMaker: Speicher und Precision für größere Modelle

25. Juni 202625. Juni 2026
AI Models, Google

Blackwells 180–268 GB Speicher pro GPU erlaubt größere Batch-Größen und längere Sequenzen beim Modelltraining, was Kommunikations-Overhead reduziert und Single-Node-Training für Modelle ermöglicht, die bisher Multi-Node-Setups erforderten.

Share on:

Strukturbewusstes Curriculum Learning für LLMs über Manifold-Banditen

23. Juni 20264. Juli 2026
AI Models

Strukturierte Curriculum-Learning-Strategien, die Aufgabenbeziehungen im latenten Raum nutzen, erzielen bessere Downstream-Performance als reine Schwierigkeitspriorisierung.

Share on:

Uniform FP4: Neue 4-Bit-Trainingsmethode für LLMs reduziert systematische Fehler

19. Juni 20264. Juli 2026
AI Models

Uniforme 4-Bit-Formate beheben den systematischen Shrinkage-Bias von E2M1 beim FP4-LLM-Training und ermöglichen konsistent bessere Konvergenz über alle Modellgrößen hinweg.

Share on:

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

18. Juni 20264. Juli 2026
AI Models

STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.

Share on:

Socratic-SWE: Selbstlernende KI-Agenten für Code-Reparaturen

8. Juni 20264. Juli 2026
AI Models

Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.

Share on:

OPRD: Representation Distillation mit versteckten Zuständen schlägt Output-Only-Methode

5. Juni 20264. Juli 2026
AI Models

Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.

Share on:

Skill Self-Play: Neue Co-Evolution für LLM-Trainingsmethoden

CausalMix: Daten-Mischverhältnisse durch kausale Inferenz optimieren

iLLaDA: 8B-Sprachmodell mit bidirektionaler Diffusion trainiert

NVIDIA Blackwell auf Amazon SageMaker: Speicher und Precision für größere Modelle

Strukturbewusstes Curriculum Learning für LLMs über Manifold-Banditen

Uniform FP4: Neue 4-Bit-Trainingsmethode für LLMs reduziert systematische Fehler

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

Socratic-SWE: Selbstlernende KI-Agenten für Code-Reparaturen

OPRD: Representation Distillation mit versteckten Zuständen schlägt Output-Only-Methode

Lumi AI News

Rechtliches

Themenbereiche