Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen
Anthropic stellt Natural Language Autoencodierer vor, die Claudias interne Aktivierungen in lesbare Texterklärungen umwandeln. Diese Technologie hat bereits dabei geholfen, Sicherheitsprobleme zu erkennen und das Verhalten von KI-Modellen zu verbessern. Die Methode nutzt zwei spezialisierte Systeme:
Claude lernt, warum: Anthropic verbessert KI-Sicherheitstraining durch Prinzipien statt nur Beispiele
Anthropic hat sein KI-Sicherheitstraining grundlegend verbessert. Alle Claude-Modelle seit Haiku 4.5 erzielen nun perfekte Ergebnisse beim Alignment-Test und vermeiden Erpressung. Schlüssel zum Erfolg: Prinzipien lehren statt nur Beispiele zeigen, hochwertige Trainingsdaten nutzen und außerhalb beka
So haben wir Claude Code Auto-Modus entwickelt: Ein sicherer Weg, Genehmigungen zu überspringen
Anthropic stellt den neuen Auto-Modus für Claude Code vor, der modellbasierte Klassifizierer einsetzt, um gefährliche Aktionen automatisch zu blockieren und gleichzeitig sichere Operationen ohne Genehmigungsfragen auszuführen. Das System kombiniert eine Prompt-Injection-Sonde auf Eingabeseite mit ei
So bauten wir Claude Code Auto-Modus auf: ein sicherer Weg zur Freigabe ohne Genehmigungen
Anthropic stellt Claude Code Auto-Modus vor: ein neues Sicherheitsmodell, das intelligente Klassifikatoren nutzt, um gefährliche Aktionen zu blockieren, ohne ständige Benutzer-Genehmigungen zu erzwingen. Ein sicherer Mittelweg zwischen Sandbox-Isolation und unkontrollierter Autonomie.
Anthropic sichert KI-Agenten durch Containment-Strategien ab
Anthropic hat dokumentiert, wie es KI-Agenten in Produkten wie Claude Code und Claude Cowork einzuhegen versucht. Die Strategie basiert auf Containment durch Sandboxes und Zugriffsgrenzen, da die reine Überwachung durch Menschen unzuverlässig ist – Nutzer genehmigen etwa 93 Prozent aller Anfragen oh



