Auf den Punkt: Anthropic verzichtet auf verdeckte Sicherheitseingriffe in Claude 5 zugunsten transparenter, für den Nutzer erkennbarer Filterentscheidungen.
Anthropic hat nach Kritik an verdeckten Sicherheitsinterventionen in Claude 5 dessen Filtermechanismen angepasst. Die Eingriffe sind nun für Nutzer sichtbar, was jedoch zu einer höheren Rate falsch-positiver Ablehnungen führt.
Anthropic hat die Funktionsweise seiner Sicherheitsmaßnahmen in Claude 5 geändert. Zuvor griffen Sicherheitsfilter verdeckt ein und modifizierten Antworten, ohne dass Nutzer oder Entwickler dies bemerkten. Diese versteckten Interventionen waren in der Community auf Kritik gestoßen, da sie zu fehlerhafter oder unerwartet abgeschwächter Ausgabe führten, ohne dass nachvollzogen werden konnte, warum eine Antwort verändert wurde.
Mit der Überarbeitung macht Anthropic diese Eingriffe nun explizit sichtbar. Nutzer erhalten Ablehnungsmeldungen oder Warnungen, wenn Claude die Bearbeitung einer Anfrage verweigert oder beschränkt. Dies verbessert die Transparenz und ermöglicht es, die Entscheidungen des Modells nachzuvollziehen und bei Bedarf zu überprüfen.
Als Tradeoff ist die Zahl der sogenannten Fehlalarme gestiegen — Anfragen, die das System fälschlicherweise blockiert oder als problematisch einstuft. Anthropic sieht diese erhöhte Fehlerquote als akzeptable Konsequenz für die gewonnene Nachvollziehbarkeit und Kontrolle seitens der Nutzer.
Quelle: www.heise.de · Erschienen 12. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.