Auf den Punkt: Amazon Bedrock AgentCore führt versionierte Test-Datasets ein, die stabile Evaluierung von Agenten ermöglichen. Mit unveränderlichen Versionen für CI/CD-Gates und Draft-Modus für Entwicklung bietet es Ground Truth für verifiable Messungen statt subjektiver Bewertungen – optimal für Inner-Loop-Iteration und Regressions-Kontrolle.
Amazon Bedrock AgentCore ermöglicht es Entwicklern, Test-Suites mit versionierten Datasets zu erstellen, die mit ihren Agenten wachsen. Durch die Kombination von Online-Signalen mit stabilen Offline-Baselines können Verbesserungen zuverlässig gemessen werden – mit unveränderlichen Test-Versionen als Kontrollpunkte.
Agent-Evaluation erreicht maximale Aussagekraft durch die Kombination von schnellen Online-Signalen mit stabilen Offline-Baselines. Um echte Verbesserungen zu erkennen, braucht es ein festes Benchmark-Set neben dem sich ändernden Live-Traffic.
Die Verwaltung von Test-Cases als versioniertes Dataset in Amazon Bedrock AgentCore bringt systematische Disziplin in die Agent-Evaluierung. Entwickler können Szenarien mit Eingaben, erwarteten Ausgaben, Assertions und Tool-Sequenzen definieren und diese als unveränderliche, nummerierte Versionen veröffentlichen. Ein flexibles Draft-System erlaubt freie Iteration bis zur Fixierung eines Kontrollpunkts. Produktionsfehlschläge werden automatisch zu permanenten Test-Cases für zukünftige Änderungen.
**Warum Datasets entscheidend sind**
Agenten sind bewusst nicht-deterministisch. Dieselbe Eingabe kann unterschiedliche Ausgaben produzieren, was einzelne Evaluationsergebnisse nahezu bedeutungslos macht. Ein verschobener Score kann sowohl von Agent-Änderungen als auch von unterschiedlichem LLM-Sampling herrühren. Nur konsistente Messung über stabilen Eingaben offenbart echte Verbesserungen.
Stabile Eingaben allein genügen jedoch nicht. Ein LLM-Judge bewertet, ob eine Antwort hilfreich klingt – nicht, ob Aktienkurse korrekt sind, Tool-Abläufe in der richtigen Reihenfolge stattfanden oder ob personenbezogene Daten zwischen Sessions durchsickerten. Für diese Überprüfungen braucht es Ground Truth: die erwartete Antwort, die erforderliche Tool-Sequenz und unverrückbare Assertions. Ground Truth transformiert subjektive Bewertung in verifiable Messung.
Versionierte Datasets liefern beides: stabile Eingaben für vergleichbare Scores und Ground Truth für aussagekräftige Messungen. Das ist entscheidend in zwei Evaluierungsszenarien:
**Inner Loop (Developer Desk):** Entwickler rufen den Agent auf, lesen Scores, passen Tool-Beschreibungen an und iterieren – im Minuten-Rhythmus. Das Problem: Test-Cases sind oft ad-hoc, Fragen von vor einer Woche oder zufällig gespeicherte Sessions. Ohne stabile Eingaben kann nicht unterschieden werden, ob der Agent besser wurde oder die Fragen einfacher.
**Outer Loop (CI/CD-Pipeline):** Vor dem Deployment braucht es eine Regression-Kontrolle. Viele Teams haben diesen Gate, aber oft ohne stabile, versionierte Eingaben und explizite Assertions. Die Pipeline testet gegen beliebige Inputs ohne Ground Truth – und verpasst Regressions-Fehler, die Scoring-Änderungen verursachen.
Versionierte Datasets schließen diese Lücke: Während des Inner Loop kuriert der Entwickler Fehlschläge ins Draft. Im Outer Loop wird eine published Version zum unveränderlichen Gate mit vollständiger Ground Truth – und wird somit zur zuverlässigen Regressions-Kontrolle.
Quelle: aws.amazon.com