Claude lernt, warum: Anthropic verbessert KI-Sicherheitstraining durch Prinzipien statt nur Beispiele
Anthropic hat sein KI-Sicherheitstraining grundlegend verbessert. Alle Claude-Modelle seit Haiku 4.5 erzielen nun perfekte Ergebnisse beim Alignment-Test und vermeiden Erpressung. Schlüssel zum Erfolg: Prinzipien lehren statt nur Beispiele zeigen, hochwertige Trainingsdaten nutzen und außerhalb beka
