Zum Inhalt springen
Claude Code

Effektive Strukturen für langfristig laufende KI-Agenten

Share on:

Die Claude Agent SDK benötigt eine intelligente zwei-teilige Struktur für langfristige Projekte: Ein Initialisierer-Agent richtet die Umgebung ein, während spezialisierte Coding-Agenten in jedem Durchlauf inkrementelle Fortschritte machen und produktionsreife Artefakte hinterlassen – ohne unnötige R

Share on:

Evaluierungen von KI-Agenten entmystifiziert

Share on:

Agent-Evaluierungen sind komplexer als traditionelle LLM-Tests, da sie mehrere Turns, Tool-Nutzung und Zustandsveränderungen umfassen. Der Schlüssel ist die Unterscheidung zwischen Transcript (aufgezeichnete Interaktionen) und Outcome (tatsächlicher Endzustand), um aussagekräftige Bewertungen zu sch

Share on:

KI-resistente technische Bewertungen gestalten

Share on:

Anthropic überarbeitet seine technischen Einstellungstests kontinuierlich, während KI-Modelle stärker werden. Der Take-Home-Test zur Code-Optimierung wurde dreimal neu gestaltet, um Top-Talente zu identifizieren und dem neuesten Claude-Modell voraus zu bleiben.

Share on:

Bewertung von Deep Agents mit LangSmith auf AWS

Share on:

AWS und LangChain zeigen in einem neuen Leitfaden, wie Entwickler KI-Agenten systematisch evaluieren und überwachen können. Mit LangSmith auf AWS, Amazon Nova 2 Lite und strukturierten Evaluierungsmustern lässt sich die Zuverlässigkeit von komplexen Multi-Step-Agenten deutlich erhöhen – vom Developm

Share on:

REST-API-Proxy für sicheren Zugang zu Amazon SageMaker MLflow

Share on:

Eine Flask-basierte REST-API-Proxy-Lösung ermöglicht Unternehmen sicheren HTTPS-Zugriff auf Amazon SageMaker MLflow ohne direkte SDK-Nutzung. Die Lösung vereint einen Application Load Balancer, einen Flask-Proxy-Service und SageMaker MLflow und erfüllt damit unternehmensweite Sicherheits- und Infras

Share on: