Zum Inhalt springen

Agent-EvalKit: Open-Source-Evaluierung für KI-Agenten in Claude Code

Share on:

Auf den Punkt: Agent-EvalKit automatisiert die Evaluierung von KI-Agenten durch strukturierte Test-Case-Generierung, Observability-Instrumentierung und kombinierte Code- sowie LLM-basierte Metriken direkt in der Entwicklungsumgebung.

AWS stellt Agent-EvalKit bereit, ein Apache-2.0-lizenziertes Toolkit zur systematischen Bewertung autonomer KI-Agenten. Die Lösung integriert sich direkt in Claude Code und andere KI-Coding-Assistanten, um Tool-Calls, Zwischenschritte und Halluzinationen auf dem Execution Path zu erfassen.

Herkömmliches Software-Testing vergleicht Ausgaben mit erwarteten Ergebnissen. Bei autonomen KI-Agenten ist dies unzureichend: Ein Agent kann eine kohärente, strukturierte Antwort liefern, während er gleichzeitig Fakten halluziniert oder Tool-Aufrufe mit falschen Parametern startet. Diese Fehler liegen unterhalb der finalen Antwort und erfordern Evaluierung des kompletten Execution Path: Welche Tools wurden aufgerufen? Welche Daten gaben sie zurück? Reflektiert die Antwort diese Daten korrekt?

Agent-EvalKit baut diese Evaluierungs-Infrastruktur direkt in die IDE ein. Entwickler beschreiben ihre Evaluierungsziele in natürlicher Sprache und geben sie Claude Code oder anderen integrierten KI-Assistenten als Slash-Commands (etwa `/evalkit.plan` oder `/evalkit.data`) vor. Der Assistant liest dann den Agent-Quellcode, Tool-Definitionen und System-Prompts und durchläuft sechs Phasen: Zielplanung, Test-Case-Generierung, Evaluierung und Empfehlungen mit Bezügen zu spezifischen Code-Zeilen. Die Bewertung kombiniert dabei Code-basierte Evaluatoren (schnell, reproduzierbar) mit LLM-gestützten Beurteilern für nuancierte Analyse.

Wesentliche Evaluierungsdimensionen sind Treue zu Tool-Rückgabewerten, Korrektheit von Tool-Aufrufen einschließlich Parameter, und Kohärenz der Ausgabe. Keine einzelne Metrik erfasst alle drei; Agent-EvalKit prüft jede Dimension separat und erzeugt konkrete Verbesserungshinweise statt bleierner Dashboards. Das Toolkit funktioniert mit Strands Agents SDK und Amazon Bedrock und ist als Open Source verfügbar.


Quelle: aws.amazon.com · Erschienen 11. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: