Auf den Punkt: Arbor koordiniert autonome KI-Agenten über persistente Hypothesenbäume und erzielte auf sechs Forschungsaufgaben 2,5-fach bessere Ergebnisse als Codex und Claude Code.

Anthropic präsentiert Arbor, ein Framework, das KI-Agenten ermöglicht, selbstständig über längere Zeiträume hinweg Forschungsschleifen aus Exploration, Experiment und Abstraktion durchzuführen. Im Vergleich zu Codex und Claude Code erreicht Arbor auf sechs Forschungsaufgaben 2,5-fach bessere Ergebnisse.

Arbor kombiniert drei Komponenten: einen langlebigen Koordinator, kurzlebige Executor-Prozesse und eine Hypothesis Tree Refinement (HTR) genannte Datenstruktur. Der Koordinator steuert die globale Forschungsstrategie über den Hypothesenbaum hinweg, während Executor-Prozesse einzelne Hypothesen in isolierten Arbeitsumgebungen implementieren und testen.

Das System speichert Hypothesen, Artefakte, Evidenz und destillierte Erkenntnisse persistent in einer Baumstruktur ab und verknüpft diese über Zeit hinweg. Wenn Executor-Prozesse Ergebnisse zurückliefern, aktualisiert Arbor den Baum, propagiert wiederverwendbare Lektionen, verfeinert die Suchfrontier und integriert verifizierte Verbesserungen. Dadurch wird autonome Forschung von einer Folge isolierter Versuche in einen kumulativen Prozess verwandelt, in dem Strategie, Ausführung und Evidenz sich über Zeit transportieren.

Evaluiert wurde Arbor unter dem Setting „Autonomous Optimization“ (AO), bei dem ein Agent ein initiales Forschungsartefakt durch iterative Experimente ohne schrittweise menschliche Intervention verbessert. Auf sechs echten Forschungsaufgaben aus Modelltraining, Harness-Engineering und Datensynthese erreichte Arbor auf allen sechs Tasks die besten gehaltenen Ergebnisse. Auf MLE-Bench Lite erreichte Arbor mit GPT-5.5 einen Any-Medal-Anteil von 86,36 Prozent, das stärkste Ergebnis im Vergleich.

Für CTOs ist diese Entwicklung relevant, da sie aufzeigt, wie autonome Agenten systematisch über längere Forschungsphasen hinweg Hypothesen verfeinern und dabei menschliche Intuition durch strukturierte, evidenzbasierte Entscheidungen ersetzen können. Das TreeRefinement-Modell ermöglicht es, Erkenntnisse zwischen Experimenten zu transportieren, statt jeden Versuch als Neustart zu behandeln.

Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

Anthropics Arbor: KI-Agenten führen autonome Forschungszyklen durch

Lumi AI News

Rechtliches

Themenbereiche