Auf den Punkt: Anthropic klassifiziert KI-Cybersecurity-Nutzung in vier Kategorien und etabliert ein Severity-Framework für Jailbreaks, um defensive Anwendungen zu ermöglichen und Missbrauch zu verhindern.
Anthropic hat Claude Fable 5 weltweit neu bereitgestellt und dokumentiert erstmals die Cybersecurity-Klassifizierer sowie ein Rahmenwerk zur Bewertung von KI-Jailbreaks, um Dual-Use-Risiken strukturiert zu adressieren.
Anthropic hat Claude Fable 5 global neu bereitgestellt und teilt dabei detaillierte Informationen zu zwei Sicherheitsthemen: den integrierten Safety-Klassifizierern und einem Jailbreak-Severity-Framework. Die Klassifizierer sind spezialisierte KI-Systeme, die gefährliche oder potenziell gefährliche Cybersecurity-Nutzungen erkennen und blockieren sollen. Anthropic dokumentiert erstmals präzise, welche Schadenskategorien die Klassifizierer adressieren und welche nicht.
Das Kernproblem liegt in der Dual-Use-Natur von Cybersecurity-Technologie: Fähigkeiten wie Code-Schwachstellenanalyse können von Verteidigern zur Sicherung von Systemen oder von Angreifern zu deren Kompromittierung genutzt werden. Anthropic verzichtet daher auf ein pauschales Verbot aller Cybersecurity-Aktivitäten. Stattdessen stuft Fable 5 Anfragen in vier Kategorien ein: (1) Prohibited Use – hochgradig gefährlich mit minimaler defensiver Nutzung (blockiert), (2) High-Risk Dual Use – weit verbreitet bei Angreifern, aber mit legitimen Anwendungen (blockiert), (3) Low-Risk Dual Use – überwiegend defensiv, kann aber Angreifern nutzen (überwacht und teilweise blockiert als Sicherheitsmarge), (4) Benign Use – harmlos (erlaubt mit Monitoring). Die Sicherheitsmarge umfasst bewusst auch legitime Anfragen, die Anthropic aus Vorsicht blockiert; diesen Puffer hat man bei Fable 5 bewusst vergrößert gegenüber früheren Versionen.
Parallel präsentiert Anthropic einen Jailbreak-Severity-Framework, entwickelt mit Partner Glaswing. KI-Jailbreaks sind unkonventionelle Prompt-Strategien, mit denen Nutzer die Safeguards umgehen können. Bislang fehlte eine standardisierte Bewertung ihrer Gefährlichkeit – manche deaktivieren nur Minor-Verhaltensweisen, andere entsperren breite Schäden und verschärfen KI-Risiken erheblich. Ein gemeinsamer Standard würde es Entwicklern und Regierungen ermöglichen, konsistent über spezifische Jailbreak-Risiken zu kommunizieren.
Anthropic lädt Feedback zur Fable 5 Cybersecurity-Strategie unter cyber-safeguards@anthropic.com ein und betreibt ein HackerOne-Programm, über das Security-Forscher neue Jailbreaks einreichen können. Das Unternehmen positioniert den Ansatz als Schritt zur Balance zwischen defensiver KI-Nutzung und Missbrauchsprävention durch Standardisierung.
Quelle: www.anthropic.com · Erschienen 1. Juli 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.