Auf den Punkt: Ein innovatives Multi-Agent-Harness-Design mit Kontext-Resets statt -Kompression löst das Problem der Kohärenzverluste bei langer Anwendungsentwicklung. Claude kann nun in mehrstündigen autonomen Sessions hochwertige Full-Stack-Anwendungen entwickeln.
Ein innovatives Harness-Design mit Generator- und Evaluator-Agenten ermöglicht es Claude, hochwertige Frontend-Designs zu erstellen und vollständige Anwendungen über mehrstündige autonome Coding-Sessions hinweg zu entwickeln – ohne menschliche Intervention.
Die Entwicklung von Sprachmodellen für komplexe Softwareprojekte erfordert neuartige Engineering-Ansätze. Ein Kernproblem liegt in der Kohärenzverlust bei langen Aufgaben: Mit zunehmendem Kontext-Fenster neigen Modelle dazu, ihre Qualität zu verschlechtern oder sogar verfrüht ihre Arbeit abzuschließen – ein Phänomen, das als „Context Anxiety“ bekannt ist.
Die Lösung besteht nicht in Verdichtung des Kontexts, sondern in strategischen Kontext-Resets. Im Gegensatz zur traditionellen Kompression, bei der frühere Gesprächsteile zusammengefasst werden, bietet ein Reset dem Agenten einen vollständig sauberen Zustand. Dies eliminiert die Context Anxiety vollständig, erfordert aber strukturierte Handoff-Artefakte, die ausreichend Zustand für den nächsten Agenten tragen.
Das entwickelte Drei-Agenten-System besteht aus: einem Planer, der Spezifikationen in handhabbare Aufgaben zerlegt; einem Generator, der diese Aufgaben sequenziell umsetzt; und einem Evaluator, der Outputs zuverlässig und mit Stil bewertet. Der Evaluator nutzt konkrete, bewertbare Kriterien, um subjektive Urteile wie „Ist dieses Design gut?“ in objektive Metriken zu übersetzen – inspiriert von Generative Adversarial Networks.
Diese Architektur ermöglichte erfolgreiche mehrstündige autonome Coding-Sessions für komplexe Full-Stack-Anwendungen, wobei strukturierte Handoffs den Kontext zwischen Sessions konsistent erhalten.
Quelle: www.anthropic.com