Zum Inhalt springen

FAPO: Autonome Optimierung von Multi-Step-LLM-Pipelines mit Claude Code

Share on:

Auf den Punkt: FAPO automatisiert die Optimierung mehrstufiger LLM-Pipelines durch Claude Code, schlägt zuerst Prompt-Anpassungen vor und eskaliert nur bei strukturellen Engpässen zu Kettenänderungen, mit Gewinnen bis +33,8 pp bei komplexen Szenarien.

Forscher präsentieren FAPO, ein Framework, das Claude Code nutzt, um mehrstufige Language-Model-Pipelines automatisiert zu optimieren. Das System erkennt Engpässe nicht nur in Prompts, sondern auch in der Architektur von Verarbeitungsketten.

FAPO (Fully Autonomous Prompt Optimization) adressiert ein fundamentales Problem: Multi-Step-Pipelines mit Language Models scheitern oft nicht an einzelnen Prompts, sondern an Wechselwirkungen zwischen Retrieval-, Reasoning- und Formatting-Schritten. Traditionelle Prompt-Only-Optimierung übersieht diese Kettenfehler systematisch. Das neue Framework lässt Claude Code eine LLM-Pipeline innerhalb einer standardisierten Codebasis untersuchen, bewerten und iterativ verbessern.

Der Optimierungsprozess folgt einer definierten Strategie: FAPO evaluiert die Pipeline, inspiziert Zwischenschritte, diagnostiziert Ausfälle, schlägt begrenzte Änderungen vor und validiert Varianten gegen eine Scorefunktion. Zuerst versucht das System Prompt-Anpassungen. Erst wenn diese unzureichend erscheinen und die Attributionsanalyse einen strukturellen Engpass identifiziert, modifiziert FAPO die Kettenstruktur im zulässigen Bereich.

In Evaluierungen über sechs Benchmarks und drei Task-Modelle übertrifft FAPO die Baseline GEPA in 15 von 18 Vergleichen. In elf Model-Benchmark-Kombinationen liegen die Gewinnspannen außerhalb der Standardabweichungsbereiche; der mittlere Gewinn beträgt +14,1 Prozentpunkte. Bei den sechs HoVer- und IFBench-Szenarien, in denen Prompt-First-Suche zu Strukturänderungen führte, gewinnt FAPO alle sechs mit durchschnittlich +33,8 Prozentpunkten.

Besondere Relevanz zeigt FAPO bei Sicherheitsaufgaben: Auf CTIBench-RCM, einer CVE-zu-CWE-Klassifikationstask, steigert reine Prompt-Optimierung die Test-Accuracy um +4,0 pp auf GPT-5, +7,1 pp auf Foundation-Sec-8B-Instruct und +2,0 pp auf Foundation-Sec-8B-Reasoning. Für Engineers bedeutet dies, dass komplexe mehrstufige Systeme sich künftig systematisch debuggen und optimieren lassen, ohne dass externe Architekturänderungen erforderlich sind.


Quelle: arxiv.org · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: