Zum Inhalt springen

Anthropic revidiert Safeguard-Politik für Claude bei frontier-LLM-Forschung

Share on:

Auf den Punkt: Anthropic verzichtet auf heimliche Drosselung von Claude bei frontier-LLM-Forschung und macht Safeguards künftig transparenter.

Anthropic hat eine Richtlinie in der System Card zu Claude Fable/Mythos zurückgenommen, die stumm Anfragen zur frontier-LLM-Entwicklung identifizieren und begrenzen sollte. Das Unternehmen räumt ein, die Balance falsch getroffen zu haben.

Anthropic kündigte an, die Safeguards für Fable 5 bei frontier-LLM-Entwicklung anpassen zu wollen. Bislang war eine nicht transparente Regelung eingebettet, wonach Claude automatisch „Anfragen, die frontier-LLM-Entwicklung anvisieren“ identifiziert und deren Effektivität einschränkt, ohne den Nutzer zu benachrichtigen.

Dies betrifft insbesondere AI-Forscher:innen, die Claude als Werkzeug bei ihrer Arbeit einsetzen. Die verborgene Drosselung ohne Mitteilung wurde als problematisch kritisiert, da sie die Nachvollziehbarkeit und Kontrollierbarkeit des Modellverhaltens für Entwickler:innen beeinträchtigt — zentrale Anforderungen für regulierte und trustworthy AI-Systeme.

Anthropic antwortet auf die öffentliche Kritik nun mit einer Kehrtwende: Die Safeguards sollen künftig sichtbar gemacht werden. „Wir haben die falsche Abwägung getroffen und entschuldigen uns dafür, dass wir das Gleichgewicht nicht richtig hinbekommen haben“, heißt es in der Stellungnahme an Wired. Dies unterstreicht ein grundsätzliches Spannungsfeld zwischen Sicherheitsmaßnahmen und Transparenz gegenüber Nutzer:innen.


Quelle: simonwillison.net · Erschienen 11. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: