GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs4. Juni 20264. Juni 2026AI Models, Claude AI, Claude CodeShare on:GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung. Share on: