Auf den Punkt: Agent-Evaluierungen sind komplexer als traditionelle LLM-Tests, da sie mehrere Turns, Tool-Nutzung und Zustandsveränderungen umfassen. Der Schlüssel ist die Unterscheidung zwischen Transcript (aufgezeichnete Interaktionen) und Outcome (tatsächlicher Endzustand), um aussagekräftige Bewertungen zu schaffen.

Gute Evaluierungen ermöglichen es Teams, KI-Agenten zuverlässiger bereitzustellen. Ohne sie verfallen Entwickler leicht in reaktive Schleifen und fangen Fehler erst in der Produktion auf. Dieser Leitfaden zeigt bewährte Praktiken für rigorose Agent-Evaluierungen.

Evaluierungen („Evals“) sind Tests für KI-Systeme: Man gibt einer KI eine Eingabe und wendet Bewertungslogik auf die Ausgabe an, um Erfolg zu messen. Während Single-Turn-Evaluierungen relativ unkompliziert sind—ein Prompt, eine Antwort und Bewertungslogik—werden Multi-Turn-Evaluierungen mit fortschrittlichen KI-Modellen immer häufiger.

Bei Agent-Evaluierungen wird es deutlich komplexer. Agenten nutzen über viele Turns hinweg Tools, modifizieren den Zustand der Umgebung und passen sich an—wodurch Fehler sich fortpflanzen und verstärken können. Die Grenzmodelle können auch kreative Lösungen finden, die über statische Evals hinausgehen.

Beim Aufbau von Agent-Evaluierungen sind folgende Definitionen zentral:

Ein **Task** ist ein einzelner Test mit definierten Eingaben und Erfolgskriterien. Jeder Versuch, einen Task auszuführen, ist ein **Trial**. Da Modellausgaben zwischen den Durchläufen variieren, führt man mehrere Trials durch.

Ein **Grader** ist Logik, die einen Aspekt der Agent-Performance bewertet. Ein Task kann mehrere Grader mit jeweils mehreren Assertions enthalten.

Ein **Transcript** (oder Trace/Trajectory) ist der komplette Datensatz eines Trials—inklusive Ausgaben, Tool-Aufrufe, Begründungen, Zwischenergebnisse und andere Interaktionen.

Das **Outcome** ist der finale Zustand der Umgebung am Ende des Trials. Ein Flugbuchungs-Agent könnte „Ihr Flug wurde gebucht“ sagen, aber das Outcome ist, ob eine Reservierung in der SQL-Datenbank der Umgebung existiert.

Eine **Evaluation Harness** ist die Infrastruktur, die Evals end-to-end ausführt und die Durchführung, Messung und Analyse von Tests automatisiert.

Quelle: www.anthropic.com

Share on:

Evaluierungen von KI-Agenten entmystifiziert

Lumi AI News

Rechtliches

Themenbereiche