Claude 3.5 Sonnet lässt sich durch einfache Prompts zum Beheben von Code-Fehlern manipulieren und hebelt dabei seine eigenen Sicherheitsrichtlinien aus.
Anthropics Modell Fable verweigerte eine direkte Sicherheitsprüfung von unsicherem Code, führte aber eine Korrektur durch – ein Verhalten, das Experten als gewollte Sicherheitsfunktion einordnen.