Skill Self-Play: Neue Co-Evolution für LLM-Trainingsmethoden

27. Juli 202627. Juli 2026
AI Models

Skill Self-Play kombiniert Aufgabengenerierung, Lösungssuche und eine dynamische Fähigkeitskontrolle in einer Reinforcement-Learning-Schleife, um sowohl Aufgabenvielfalt als auch Trainings-Zuverlässigkeit zu erreichen.

Share on:

SLPO: Outcome-Reward-Training für latente Reasoner ohne Token-Dekodierung

23. Juli 202624. Juli 2026
AI Models

Surrogate Latent Policy Optimization ermöglicht effizientes Outcome-Reward-Training für latente Reasoner, die kontinuierliche Vektoren statt Tokens für Zwischenschritte verwenden.

Share on:

SEED: Selbstlernende Verhaltensklärung für agentengestützte Verstärkungslernmodelle

17. Juli 202617. Juli 2026
AI Models

SEED nutzt selbstgenerierten Hindsight-Supervision aus Sprachmodell-eigenen Analysen von Trajektorien, um die Supervision-Lücke zwischen episodischen Outcomes und Token-Level-Lernbefehlen zu schließen.

Share on:

Direct-OPD: Policy-Shifts von kleineren auf größere Modelle übertragen

14. Juli 202614. Juli 2026
AI Models

Direct-OPD transferiert RL-induzierte Policy-Verschiebungen von schwächeren auf stärkere Modelle, indem es das implizite Reward-Signal aus dem Log-Ratio der RL-verschobenen und Original-Policy nutzbar macht.

Share on:

SAO: Single-Rollout-Verfahren verbessert Stabilität beim agentengestützten RL-Training

9. Juli 20269. Juli 2026
AI Models

Single-Rollout-Sampling statt gruppenweiser Sampling stabilisiert asynchrones RL-Training und übertrifft GRPO auf agentengestützten Benchmarks.

Share on:

Reinforcement Learning mit Metakognition verbessert Unsicherheitsausdruck in LLMs

1. Juli 20264. Juli 2026
AI Models

Reinforcement Learning mit metakognitiven Rückmeldungen (RLMF) ermöglicht es LLMs, ihre eigene Unsicherheit kalibriert auszudrücken und übertrifft Standard-RL-Methoden um bis zu 63 Prozent.

Share on:

Strukturbewusstes Curriculum Learning für LLMs über Manifold-Banditen

23. Juni 20264. Juli 2026
AI Models

Strukturierte Curriculum-Learning-Strategien, die Aufgabenbeziehungen im latenten Raum nutzen, erzielen bessere Downstream-Performance als reine Schwierigkeitspriorisierung.

Share on:

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

18. Juni 20264. Juli 2026
AI Models

STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.

Share on:

ZPPO: Lehrermodelle als Prompts statt als Gradienten

17. Juni 20264. Juli 2026
AI Models

ZPPO integriert Lehrermodelle als Prompt-Komponenten statt als Gradienten und verbessert damit die Generalisierung beim Wissenstransfer auf kleine Modelle.

Share on:

RACES: Automatische Komposition überprüfbarer Umgebungen für LLM-Training

11. Juni 20264. Juli 2026
AI Models

RACES ermöglicht durch automatische Komposition von 50 Basis-Umgebungen die gleiche Trainings-Leistung wie 300 einzelne Umgebungen.

Share on:

RACES: Verifiable Umgebungen als rekursiv zusammensetzbare Bausteine für LLM-Reasoning

11. Juni 20264. Juli 2026
AI Models

RACES ermöglicht die automatische Komposition verifizierbarer Umgebungen durch rekursive Kombination, worauf hin DeepSeek-R1-Distill-Qwen-14B um 3,1 Punkte und Qwen3-14B um 2,3 Punkte bei sechs Benchmarks zulegte.

Share on:

FlowTracer: Gezieltes Reinforcement Learning durch Nachverfolgung von Informationsfluss in LLMs

10. Juni 20264. Juli 2026
AI Models

FlowTracer modelliert Informationspropagation als gerichteten Graphen und leitet Token-Credits aus globaler Flussstruktur ab, um Reinforcement-Learning-Signale präzise auf entscheidende Reasoning-Schritte zu konzentrieren.

Share on:

Skill Self-Play: Neue Co-Evolution für LLM-Trainingsmethoden

SLPO: Outcome-Reward-Training für latente Reasoner ohne Token-Dekodierung

SEED: Selbstlernende Verhaltensklärung für agentengestützte Verstärkungslernmodelle

Direct-OPD: Policy-Shifts von kleineren auf größere Modelle übertragen

SAO: Single-Rollout-Verfahren verbessert Stabilität beim agentengestützten RL-Training

Reinforcement Learning mit Metakognition verbessert Unsicherheitsausdruck in LLMs

Strukturbewusstes Curriculum Learning für LLMs über Manifold-Banditen

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

ZPPO: Lehrermodelle als Prompts statt als Gradienten

RACES: Automatische Komposition überprüfbarer Umgebungen für LLM-Training

RACES: Verifiable Umgebungen als rekursiv zusammensetzbare Bausteine für LLM-Reasoning

FlowTracer: Gezieltes Reinforcement Learning durch Nachverfolgung von Informationsfluss in LLMs

Lumi AI News

Rechtliches

Themenbereiche