Auf den Punkt: LoopCoder-v2 mit zwei Schleifen verbessert Code-Reasoning-Benchmarks erheblich (SWE-bench Verified: 43,0 → 64,4 Punkte), während drei oder mehr Schleifen durch wachsende Positionsfehler kontraproduktiv sind.
Anthropic zeigt, dass Transformer mit mehrfach durchlaufenen Blöcken beim Code verstehen und generieren effizienter sind, aber nur bis zu zwei Schleifen bringen tatsächlich Verbesserungen. Danach verschlechtert sich die Performance durch positionelle Versätze, die mit jeder zusätzlichen Schleife entstehen.
Parallel Loop Transformers (PLT) ermöglichen es, Rechenoperationen auf Latenz zu verteilen, indem identische Transformer-Blöcke mehrfach hintereinander durchlaufen werden. Dabei entstehen jedoch Versätze in den Positionsindizes zwischen den Schleifendurchläufen (Cross-Loop Position Offsets, CLP), und auch der KV-Cache-Speicherverbrauch wächst mit der Schleifenzahl. Anthropics Team trainierte LoopCoder-v2, eine 7-Milliarden-Parameter-Familie verschiedener PLT-Coder-Modelle, auf 18 Billionen Token von Grund auf und führte anschließend matched Instruction Tuning durch.
Die empirischen Ergebnisse zeigen ein stark nicht-monotones Verhalten: Das Zwei-Schleifen-Modell liefert breite Verbesserungen über alle Benchmarks hinweg – SWE-bench Verified steigt von 43,0 auf 64,4 Punkte, Multi-SWE von 14,0 auf 31,0 Punkte, und auch Code-Reasoning und agentic Software Engineering profitieren. Varianten mit drei oder mehr Schleifen zeigen hingegen Regressionnen.
Quelle: arxiv.org · Erschienen 15. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.