Zum Inhalt springen

HarnessX: Automatisierte Optimierung von Agent-Laufzeitumgebungen

Share on:

Auf den Punkt: HarnessX automatisiert Zusammenbau und Anpassung von Agent-Harnesses aus Ausführungsspuren und erreicht durchschnittlich +14,5 % Leistungssteigerung ohne Modellskalierung.

Forscher stellen HarnessX vor, ein System zur systematischen Zusammenstellung und Anpassung von Agent-Harnesses — den Prompt-, Tool- und Steuerkomponenten, die KI-Agenten ihre Aufgaben lösen lassen. Das Verfahren nutzt Ausführungsspuren, um Harnesses automatisch zu verbessern und steigert die Performance im Schnitt um 14,5 Prozent.

HarnessX behandelt ein grundlegendes Problem moderner KI-Agenten: Deren Erfolg hängt nicht nur vom Sprachmodell selbst ab, sondern zentral von der Laufzeitumgebung — den Prompts, den verfügbaren Tools, der Speicherverwaltung und der Kontrolllogik, die vorgeben, wie ein Agent Beobachtungen verarbeitet, Schlüsse zieht und handelt. Heute werden diese Komponenten meist manuell für jedes Modell und jede Aufgabe neu konstruiert, ohne dass die dabei entstehenden Ausführungsspuren systematisch zur Verbesserung genutzt werden.

Das neue System kombiniert drei Ansätze: Erstens definiert HarnessX typisierte Primitiven (modulare Bausteine) und montiert sie via Substitutionsalgebra zu kompletten Harnesses zusammen. Zweitens nutzt die AEGIS-Engine Ausführungsspuren, um Harnesses durch einen Multi-Agent-Evolutionsprozess zu verbesern — dabei verbindet es symbolische Adaptationen mit Reinforcement Learning. Drittens schließt es die Rückkopplungsschleife: Aus den Agenten-Trajektorien entstehen sowohl direkt verbesserte Harnesses als auch Trainingssignale für das zugrunde liegende Modell.

Die Evaluierung erstreckt sich über fünf Benchmark-Suites (ALFWorld, GAIA, WebShop, tau^3-Bench und SWE-bench Verified). HarnessX erreicht durchschnittliche Leistungssteigerungen von +14,5 Prozent, mit Maximalwerten bis +44,0 Prozent. Besonders auffällig: Die größten Gewinne treten dort auf, wo die Baseline-Performance am niedrigsten ist — also bei den schwierigsten Aufgaben oder schwächeren Modellen.

Die Erkenntniss widerlegt die Annahme, dass Agenten-Fortschritt primär durch größere oder bessere Modelle kommt. Stattdessen zeigt HarnessX, dass die systematische Komposition und Evolution der Schnittstellen zwischen Modell und Laufzeitumgebung ein eigenständiger, komplementärer Hebel ist. Der Quellcode soll in einer zukünftigen Veröffentlichung bereitgestellt werden.


Quelle: arxiv.org · Erschienen 11. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: