Reasoning Arena: Anthropic nutzt Paarvergleiche statt Verifikation für LLM-Training9. Juni 202610. Juni 2026AI Models, Claude AIShare on:Reasoning Arena ersetzt uninformative Rewards durch Head-to-Head-Vergleiche von Lösungsversuchen und reduziert dabei die benötigte Rechenzeit um 27 bis 41 Prozent. Share on: