Auf den Punkt: Der Sicherheitsfilter von Claude 3.5 Sonnet blockiert auch legitime Sicherheitsanfragen, was die Nutzbarkeit für CTOs bei Security-Audits und Vulnerability-Assessments einschränkt.
Forscher zeigen, dass Anthropics Claude 3.5 Sonnet bei Cybersecurity-Anfragen überreagiert und auch harmlose oder notwendige Anfragen zur Sicherheitsanalyse blockiert oder verweigert.
Forscher haben dokumentiert, dass Anthropics Claude 3.5 Sonnet seinen Sicherheitsfilter zu restriktiv anwendet. Bereits die Erwähnung von Begriffen wie „Security Audit“ oder verwandten Sicherheitskontexten führt dazu, dass das Modell Anfragen ablehnt oder mit Standardantworten ausweicht – selbst wenn die Anfrage sachlich und konstruktiv ist.
Für CTOs bedeutet dies eine praktische Einschränkung: Legitime Use Cases wie Code-Review im Sicherheitskontext, Vulnerability-Assessment oder die Vorbereitung von Penetrationstests werden durch den Filter behindert. Das Modell lässt sich nicht differenzieren, ob eine Anfrage tatsächlich schädlich oder Teil einer regulären Sicherheitspraxis ist.
Das Problem liegt in der binären Filterlogik: Statt zu prüfen, was genau gefragt wird, reagiert das System auf Trigger-Wörter und Phrasen. Dies führt zu False Positives, die die Produktivität reduzieren und dazu führen, dass Entwickler und Sicherheitsteams auf andere Tools ausweichen müssen – gerade dort, wo Claude sonst wertvoll wäre.
Quelle: www.heise.de · Erschienen 11. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.