Auf den Punkt: ThoughtFold identifiziert und entfernt überflüssige Explorations-Schritte in Reasoning-Ketten, senkt den Token-Verbrauch um 56% bei DeepSeek-R1-Distill-Qwen-7B und erhält dabei State-of-the-Art-Genauigkeit.

Ein neues Framework namens ThoughtFold reduziert die Ineffizienz von Large Reasoning Models, indem es redundante Schritte in Gedankenketten identifiziert und eliminiert. Dies senkt den Token-Verbrauch deutlich, ohne die Lösungsgenauigkeit zu beeinträchtigen.

Large Reasoning Models (LRMs) erreichen bislang hohe Performance durch Reinforcement Learning mit überprüfbaren Rewards, die auf Gedankenketten (Chain-of-Thoughts, CoTs) trainiert werden. Das Kernproblem: lange CoTs enthalten systematisch Trial-and-Error-Phasen, und etablierte RLVR-Ansätze verstärken alle Explorations-Schritte, die zu korrekten Ergebnissen führen – auch die redundanten. Dies führt zu einem Über-Denken-Phänomen (Over-Thinking), bei dem Modelle ineffizient viele Tokens verbrauchen.

ThoughtFold adressiert dieses Problem durch feinkörniges Präferenzlernen statt reiner Outcome-Optimierung. Das Framework nutzt eine introspektive Strategie, um innerhalb jeder korrekten Lösungskette redundante Segmente zu lokalisieren. Aus einer korrekten Kette entstehen so mehrere Kandidaten-Unterketten verschiedener Länge. Ein Masked Preference Optimization genanntes Verfahren belohnt dann explizit die direkte Verbindung essentieller Reasoning-Schritte und bestraft überflüssige Explorations-Umwege.

In Experimenten reduzierte ThoughtFold den Token-Verbrauch von DeepSeek-R1-Distill-Qwen-7B um etwa 56%, während die Lösungsgenauigkeit auf State-of-the-Art-Niveau erhalten blieb. Für CTOs bedeutet das: deutlich niedrigere Inference-Kosten und schnellere Antworten bei gleichbleibender Qualität – relevant für produktive Deployments von Reasoning-Modellen in der Enterprise.

Quelle: arxiv.org · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on:

ThoughtFold: Verkürzte Reasoning-Ketten durch Präferenzlernen

Lumi AI News

Rechtliches

Themenbereiche