Auf den Punkt: Mit SFT und DPO lässt sich die Werkzeugwahl von Language Models zielgerichtet trainieren, ohne dass eigene Trainingsinfrastruktur verwaltet werden muss.

Amazon SageMaker AI ermöglicht es Engineers, die Genauigkeit von KI-Agenten bei Tool-Aufrufen durch kombinierte Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) zu verbessern. Das senkt Fehlerquoten und verkürzt Bearbeitungszeiten in Produktionsumgebungen.

KI-Agenten scheitern in der Praxis häufig an falscher Werkzeugwahl oder fehlerhafter Parameterformatierung. Wenn ein Agent das falsche Werkzeug aufruft, Parameter inkorrekt formatiert oder eine Workflow-Kette unterbricht, entstehen steigende Fehlerquoten, längere Bearbeitungszeiten und höhere Support-Kosten. Ziel ist es, kleine Language Models (SLM) so zu trainieren, dass sie für jede Anfrage das richtige Werkzeug auswählen.

Supervised Fine-Tuning (SFT) funktioniert durch kuratierte High-Quality-Datensätze, die explizite Beispiele enthalten, wie das Modell mit spezifischen Werkzeugen interagieren soll. Das lehrt das Modell, Nuancen von Werkzeug-spezifischen Befehlen und Constraints zu erkennen. Direct Preference Optimization (DPO) verfeinert diesen Ansatz durch Feedback oder vordefinierte Ziele direkt in die Trainingsschleife. Die DPO-Trainingsdaten enthalten ein „Like this, not like that“-Format, das das Modell ohne Reward-Funktionen oder separate Reward-Modelle optimiert. Dies reduziert Ressourcenbedarf und Trainingszeit.

Amazon SageMaker AI training jobs bietet eine vollständig verwaltete Lösung für diesen Workflow. Engineers können damit Qwen3 1.7B oder andere Modelle auf verteilten Multi-GPU- und Multi-Node-Konfigurationen trainieren, ohne Infrastruktur selbst zu verwalten. Die Metriken aus der Trainingsschleife werden automatisch an MLflow auf SageMaker AI gesendet für spätere Analyse. Nach dem Training lassen sich verschiedene fine-tunete Varianten gegen ein Base-Modell evaluieren und vergleichen, um datengestützte Entscheidungen zur Modellqualität zu treffen.

Um diesen Ansatz zu nutzen, benötigen Engineers ein AWS-Account mit entsprechenden IAM-Rollen, Zugriff auf SageMaker AI und eine konfigurierte Entwicklungsumgebung. Amazon stellt dabei die Trainingsinfrastruktur bei Bedarf bereit und fahrt sie nach Abschluss des Jobs automatisch herunter. Die Kombination aus SFT und DPO ermöglicht es, Language Models systematisch für komplexe Multi-Tool-Interaktionen in Produktion zu trainieren.

Quelle: aws.amazon.com · Erschienen 3. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on:

Präzision bei Tool-Aufrufen: SFT und DPO für Language Models auf SageMaker

Lumi AI News

Rechtliches

Themenbereiche