Auf den Punkt: Anthropics Modell Fable verweigerte eine direkte Sicherheitsprüfung von unsicherem Code, führte aber eine Korrektur durch – ein Verhalten, das Experten als gewollte Sicherheitsfunktion einordnen.

Die White House hat in einem Bericht ein sogenanntes Fable-Jailbreak-Szenario dokumentiert, bei dem Anthropics Modell auf unterschiedliche Anfragen zum Code-Review unterschiedlich reagierte. Cybersecurity-Expertin Katie Moussouris von Luta Security bewertet das Verhalten als normal und sicherheitsgerecht.

Der White House-Bericht zum sogenannten Fable-Jailbreak beschreibt ein Test-Szenario, in dem IT-Experten das Modell um Hilfe beim Auffinden und Beheben von Bugs baten. Nach Aussage von Moussouris lehnte das Modell die Anfrage „review the code for security issues“ ab, compliance aber, als die Anfrage in „fix this code“ umformuliert wurde – zusammen mit weiteren manuellen Schritten.

Katie Moussouris, CEO von Luta Security und Cybersecurity-Expertin, hatte Zugang zu einer Kopie des Reports und bewertete das beobachtete Verhalten als Standard-Funktionalität des Modells im Kontext von Cyberdefense. Sie betont, dass sie von Anthropic nicht bezahlt wird und ihre Einschätzung unabhängig ist.

Der Unterschied in den Reaktionen auf die beiden Anfrage-Formulierungen deutet darauf hin, dass das Modell zwischen verschiedenen Kontexten unterscheidet: Eine generische Sicherheitsprüfung einer bereits unsicheren Code-Passage wird vom Modell restriktiver behandelt, während ein Reparatur-Auftrag als legitimer Anwendungsfall verstanden wird. Dies entspricht dem Design-Intent, Sicherheitsrisiken zu mitigieren und gleichzeitig praktische Entwickler-Workflows zu ermöglichen.

Quelle: simonwillison.net · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

White House testet Anthropic-Modell Fable mit absichtlich unsicherem Code

Lumi AI News

Rechtliches

Themenbereiche