NEUOpenAI löst zehn mathematische Probleme mit Astra-Modell

1. August 20261. August 2026
AI Models, OpenAI

OpenAI demonstriert mit Astra Lösungen für langjährig ungelöste mathematische Probleme und veröffentlicht Lean-4-Formalisierungen sowie LLM-generierte Rekonstruktionen der Beweise.

Share on:

REVES: Iteratives Training für effizientere Test-Time-Skalierung bei LLMs

19. Juni 20264. Juli 2026
AI Models

REVES nutzt Zwischenschritte aus erfolgreichen Fehlerbehebungen als separate Trainingsdaten und erreicht damit bessere Leistung mit weniger Rechenaufwand als konventionelle Multi-Turn-Reinforcement-Learning-Methoden.

Share on:

RACES: Automatische Komposition überprüfbarer Umgebungen für LLM-Training

11. Juni 20264. Juli 2026
AI Models

RACES ermöglicht durch automatische Komposition von 50 Basis-Umgebungen die gleiche Trainings-Leistung wie 300 einzelne Umgebungen.

Share on:

RACES: Verifiable Umgebungen als rekursiv zusammensetzbare Bausteine für LLM-Reasoning

11. Juni 20264. Juli 2026
AI Models

RACES ermöglicht die automatische Komposition verifizierbarer Umgebungen durch rekursive Kombination, worauf hin DeepSeek-R1-Distill-Qwen-14B um 3,1 Punkte und Qwen3-14B um 2,3 Punkte bei sechs Benchmarks zulegte.

Share on:

FlowTracer: Gezieltes Reinforcement Learning durch Nachverfolgung von Informationsfluss in LLMs

10. Juni 20264. Juli 2026
AI Models

FlowTracer modelliert Informationspropagation als gerichteten Graphen und leitet Token-Credits aus globaler Flussstruktur ab, um Reinforcement-Learning-Signale präzise auf entscheidende Reasoning-Schritte zu konzentrieren.

Share on:

Reasoning Arena: Anthropic nutzt Paarvergleiche statt Verifikation für LLM-Training

9. Juni 202610. Juni 2026
AI Models, Claude AI

Reasoning Arena ersetzt uninformative Rewards durch Head-to-Head-Vergleiche von Lösungsversuchen und reduziert dabei die benötigte Rechenzeit um 27 bis 41 Prozent.

Share on:

StreamMA: Streaming-Protokoll reduziert Latenz in Multi-Agent-Reasoning-Systemen

4. Juni 20264. Juli 2026
AI Models

Streaming-basiertes Multi-Agent-Reasoning reduziert Latenz durch Pipelinisierung und verbessert gleichzeitig Genauigkeit, weil frühe zuverlässigere Reasoning-Schritte vor fehlerhaften späteren Schritten schützen.

Share on:

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

4. Juni 20264. Juli 2026
AI Models

GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung.

Share on:

NEUOpenAI löst zehn mathematische Probleme mit Astra-Modell

REVES: Iteratives Training für effizientere Test-Time-Skalierung bei LLMs

RACES: Automatische Komposition überprüfbarer Umgebungen für LLM-Training

RACES: Verifiable Umgebungen als rekursiv zusammensetzbare Bausteine für LLM-Reasoning

FlowTracer: Gezieltes Reinforcement Learning durch Nachverfolgung von Informationsfluss in LLMs

Reasoning Arena: Anthropic nutzt Paarvergleiche statt Verifikation für LLM-Training

StreamMA: Streaming-Protokoll reduziert Latenz in Multi-Agent-Reasoning-Systemen

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

Lumi AI News

Rechtliches

Themenbereiche