Auf den Punkt: Eine neue Multi-Agent-Harness-Architektur mit Planer, Generator und Evaluator ermöglicht es Claude, über Stunden hinweg autonome Full-Stack-Anwendungen zu entwickeln. Schlüssel zum Erfolg sind explizite Kontext-Resets und strukturierte Übergaben zwischen Agenten-Sessions.
Prithvi Rajasekaran vom Anthropic Labs-Team stellt eine innovative Multi-Agent-Harness-Architektur vor, die Claude befähigt, über mehrere Stunden hinweg vollständige Full-Stack-Anwendungen autonom zu entwickeln. Durch die Kombination von Generator- und Evaluator-Agenten mit strukturiertem Kontext-Management werden bisherige Leistungsgrenzen überwunden.
Die Entwicklung einer robusten Harness-Architektur für langfristige KI-Coding-Aufgaben erfordert durchdachte Lösungsansätze. Während frühere Versuche, Claude durch Prompt Engineering und einfache Harness-Design zu verbessern, respektable Ergebnisse lieferten, stießen sie schnell an ihre Grenzen.
Rajasekaran identifizierte zwei zentrale Probleme: Bei komplexen, längerfristigen Aufgaben verlieren Modelle an Kohärenz, wenn das Kontextfenster sich füllt. Zudem zeigt Claude Sonnet 4.5 eine „Kontextangst“—das Modell beginnt, Arbeiten vorzeitig zu beenden, wenn es sich dem Kontextlimit nähert.
Die Lösung liegt in expliziten Kontext-Resets statt bloßer Komprimierung. Während Komprimierung frühere Gesprächsteile zusammenfasst, behält das Modell seine innere Spannung. Ein Reset bietet einen sauberen Slate, erfordert aber ein strukturiertes Übergabe-Artefakt, das ausreichend Zustand für den nächsten Agenten enthält.
Die resultierende Drei-Agent-Architektur umfasst einen Planer, einen Generator und einen Evaluator. Der Evaluator wird dabei wie in Generativen Adversarial Networks (GANs) ausgebildet—mit objektiven Kriterien, die subjektive Qualitätsurteile in messbare Begriffe übersetzen. Diese Ansätze ermöglichen es Claude, komplexe Full-Stack-Anwendungen mit Verifiable Correctness zu entwickeln, wo früher die menschliche Intervention notwendig war.
Quelle: www.anthropic.com