Auf den Punkt: Ein 20B-Search-Agent erreicht 0,730 durchschnittliche Curated Recall über acht Benchmarks, indem RL auf explizitem Zustand trainiert wird statt Zustandsverwaltung in die Policy zu integrieren.
Anthropic und Universität Princeton präsentieren Harness-1, einen 20-Milliarden-Parameter-Search-Agent, der Zustandsverwaltung vom Policy-Netzwerk in eine externe Harness auslagert. Das Verfahren ermöglicht effizienteres Reinforcement-Learning und bessere Generalisierung auf neue Domänen.
Harness-1 basiert auf der Beobachtung, dass traditionelle Search-Agents als Policies über wachsende Transkripte trainiert werden: Das Modell muss sowohl semantische Suchentscheidungen treffen als auch Bookkeeping durchführen – Tracking von gesehenen Beobachtungen, Relevanzeinschätzung von Evidenz, offenen Constraints und verifizierten Claims. Diese Formulierung zwingt das Reinforcement Learning, beide Aufgaben gleichzeitig zu optimieren.
Die Harness-Architektur verlagert das Zustandsmanagement in eine externe, umgebungsseitige Komponente. Diese verwaltet einen Candidate Pool, ein wichtigkeitsgetaggtes kuratiertes Set, kompakte Evidenzlinks, Verifikationsprotokollen sowie deduplizierte und komprimierte Beobachtungen mit budgetbewusster Kontext-Rendering. Die Policy konzentriert sich nur auf semantische Entscheidungen: was gesucht werden soll, welche Dokumente behalten oder verworfen werden, was verifiziert werden muss und wann zu stoppen ist.
In Evaluierungen über acht Abruf-Benchmarks (Web, Finanzen, Patente, Multi-Hop QA) erreicht Harness-1 eine durchschnittliche Curated Recall von 0,730 und übertrifft den nächststärksten offenen Search-Subagent um 11,4 Punkte. Das Modell bleibt konkurrenzfähig mit deutlich größeren Frontier-Modellen. Besonders ausgeprägt sind die Gewinne auf gehaltenen Transfer-Benchmarks außerhalb der Trainingdomänen, was darauf hindeutet, dass RL über explizitem Suchzustand generalisierbare Abruf-Verhaltensweisen produziert.
Der Code ist unter https://github.com/pat-jj/harness-1 verfügbar. Für CTOs ist relevant: Das Design entkoppelt Inference-Overhead durch externe State-Verwaltung, senkt damit den Speicher- und Compute-Druck auf das neuronale Netz und ermöglicht skalierbar trainierte RL-Agenten mit besserer Domänengeneralisierung – ein Muster, das über Search hinaus auf andere agentenbasierte Systeme übertragbar ist.
Quelle: arxiv.org · Erschienen 31. Mai 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.