LongStraw: Reinforcement Learning auf Millionen Tokens im fixen GPU-Budget

17. Juli 202617. Juli 2026
AI Models

LongStraw ermöglicht RL-Training auf 2,1 Millionen Tokens mit Group Relative Policy Optimization (GRPO) auf acht H20 GPUs, indem es Speicherzugriffe optimiert und Berechnungsdiagramme durch Replay von Response-Branches komprimiert.

Share on:

SAO: Single-Rollout-Verfahren verbessert Stabilität beim agentengestützten RL-Training

9. Juli 20269. Juli 2026
AI Models

Single-Rollout-Sampling statt gruppenweiser Sampling stabilisiert asynchrones RL-Training und übertrifft GRPO auf agentengestützten Benchmarks.

Share on:

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

18. Juni 20264. Juli 2026
AI Models

STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.

Share on:

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

4. Juni 20264. Juli 2026
AI Models

GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung.

Share on:

LongStraw: Reinforcement Learning auf Millionen Tokens im fixen GPU-Budget

SAO: Single-Rollout-Verfahren verbessert Stabilität beim agentengestützten RL-Training

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

Lumi AI News

Rechtliches

Themenbereiche