Auf den Punkt: Arbor ermöglicht KI-gesteuerte Forschung durch systematische Hypothesen-Verwaltung und erzielte auf sechs Testaufgaben durchschnittlich 2,5x höhere Verbesserungen als bestehende Code-Modelle.
Anthropic hat Arbor entwickelt, ein Framework für autonome Forschung, das KI-Agenten befähigt, über längere Zeit hinweg eigenständig Hypothesen zu testen, Ergebnisse zu interpretieren und Erkenntnisse in nachfolgende Experimente zu integrieren. Das System kombiniert einen koordinierenden Agenten mit spezialisierten Ausführern und einer persistenten Hypothesen-Baum-Struktur, um Forschungsergebnisse kumulativ aufzubauen statt als isolierte Versuche.
Der Kern des Arbor-Frameworks besteht aus drei Komponenten: Ein zentraler Koordinator steuert die übergeordnete Forschungsstrategie über die Hypothesis Tree Refinement (HTR) – eine Datenstruktur, die Hypothesen, Artefakte, Evidenz und destillierte Erkenntnisse miteinander verknüpft. Kurzlebige Executor-Agenten implementieren und testen einzelne Hypothesen in isolierten Arbeitsumgebungen. Während Ergebnisse zurückfließen, aktualisiert Arbor den Baum, propagiert wiederverwendbare Lektionen, verfeinert die Suchgrenze und integriert verifizierte Verbesserungen.
In der praktischen Evaluierungssetting „Autonomous Optimization“ (AO) verbessert der Agent iterativ ein initiales Forschungsartefakt durch Experimente ohne Schritt-für-Schritt-Überwachung durch Menschen. Anthropic testete Arbor auf sechs realen Forschungsaufgaben in den Bereichen Modelltraining, Harness-Engineering und Datensynthese. Das System erreichte auf allen sechs Aufgaben die besten Held-Out-Ergebnisse und erzielte durchschnittlich das 2,5-Fache der relativen Held-Out-Gewinne von Codex und Claude Code unter identischer Task-Interface und gleichem Ressourcenbudget.
Für CTOs ist Arbor relevant, weil es zeigt, wie KI-Systeme längerfristige Forschungszyklen eigenständig bewältigen können – ein Modell, das über Grundlagenforschung hinaus auf interne Optimierungsaufgaben, Model-Engineering und Data-Pipeline-Verbesserungen übertragbar ist. Das explizite Tracking von Hypothesen und Erkenntnissen ermöglicht auch bessere Nachvollziehbarkeit von automatisierten Forschungsentscheidungen. Auf MLE-Bench Lite erreichte Arbor mit GPT-5.5 einen Score von 86,36% Any Medal, das stärkste Vergleichsergebnis in der Studie.
Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.