Claude-Plattform erhält erweiterte Tool-Nutzung für AI-Agenten
Anthropic führt Tool Search, Programmatic Tool Calling und Tool Use Examples ein. Diese Features ermöglichen es KI-Agenten, mit Tausenden von Tools zu arbeiten, ohne Kontext zu verschwenden. Interne Tests zeigen signifikante Verbesserungen bei Speichereffizienz und Fehlerreduktion.
Evaluierungen von KI-Agenten entmystifiziert
Agent-Evaluierungen sind komplexer als traditionelle LLM-Tests, da sie mehrere Turns, Tool-Nutzung und Zustandsveränderungen umfassen. Der Schlüssel ist die Unterscheidung zwischen Transcript (aufgezeichnete Interaktionen) und Outcome (tatsächlicher Endzustand), um aussagekräftige Bewertungen zu sch
Bewertung von Deep Agents mit LangSmith auf AWS
AWS und LangChain zeigen in einem neuen Leitfaden, wie Entwickler KI-Agenten systematisch evaluieren und überwachen können. Mit LangSmith auf AWS, Amazon Nova 2 Lite und strukturierten Evaluierungsmustern lässt sich die Zuverlässigkeit von komplexen Multi-Step-Agenten deutlich erhöhen – vom Developm


