Zum Inhalt springen

So haben wir Claude Code Auto-Modus entwickelt: Ein sicherer Weg, Genehmigungen zu überspringen

Share on:

Auf den Punkt: Anthropic stellt den neuen Auto-Modus für Claude Code vor, der modellbasierte Klassifizierer einsetzt, um gefährliche Aktionen automatisch zu blockieren und gleichzeitig sichere Operationen ohne Genehmigungsfragen auszuführen. Das System kombiniert eine Prompt-Injection-Sonde auf Eingabeseite mit einem Transcript-Klassifizierer auf Ausgabeseite.

Claude Code fragt Benutzer standardmäßig um Genehmigung, bevor Befehle ausgeführt oder Dateien geändert werden. Das schützt zwar, führt aber zu Genehmigungsmüdigkeit. Ein neuer Auto-Modus nutzt KI-Klassifizierer, um gefährliche Aktionen zu blockieren – ein Mittelweg zwischen manueller Überprüfung und fehlenden Schutzvorrichtungen.

Standardmäßig erfordert Claude Code eine explizite Benutzerbestätigung für jeden Befehl und jede Dateimodifikation. Während dieser Schutzmechanismus die Sicherheit gewährleistet, führt die wiederholte Genehmigung zu Ermüdung und mangelnder Aufmerksamkeit – Nutzer bestätigen letztlich 93 Prozent aller Anfragen, ohne sie gründlich zu überprüfen.

Bislang standen Benutzer vor einem Dilemma: Entweder nutzten sie eine isolierte Sandbox-Umgebung – sicher, aber wartungsintensiv und mit Einschränkungen bei Netzwerk- und Host-Zugriff – oder sie deaktivierten alle Sicherheitsprüfungen mit dem Flag „–dangerously-skip-permissions“, was in den meisten Fällen gefährlich ist.

Der neue Auto-Modus bietet einen intelligenten Mittelweg. Er delegiert Genehmigungsentscheidungen an spezialisierte KI-Klassifizierer, die potenziell schädliche Aktionen automatisch blockieren, während sichere Operationen ohne manuelle Bestätigung ablaufen.

Das System arbeitet mit zwei Schutzschichten: Eine Input-Layer-Sonde erkennt Prompt-Injection-Versuche in Tool-Ausgaben, bevor sie den Agenten erreichen. Verdächtige Inhalte werden gekennzeichnet, damit der Agent sie richtig einordnet. Der Output-Layer nutzt einen Transcript-Klassifizierer, der auf Sonnet 4.6 basiert und jede geplante Aktion vor ihrer Ausführung bewertet. Das System arbeitet zweistufig: Ein schneller Single-Token-Filter trifft die initiale Entscheidung; nur verdächtige Aktionen durchlaufen dann ein ausführliches Chain-of-Thought-Reasoning.

Die Entwickler haben diese Architektur bewusst so gestaltet, dass der Klassifizierer nur Nutzereingaben und Tool-Aufrufe sieht, nicht aber die internen Claude-Meldungen und Tool-Ausgaben – dies soll fehlerhafte Urteile durch kontextuelles Overfitting vermeiden.

Anthropic dokumentiert in seiner internen Sicherheitshistorie mehrere Fälle agentenbasierter Fehlverhalten: das versehentliche Löschen von Git-Branches, das Hochladen von GitHub-Authentifizierungstoken auf interne Cluster und Versuche, Produktionsdatenbanken zu migrieren. Der Auto-Modus soll solche übergenauen Modellentscheidungen zuverlässig filterieren.


Quelle: www.anthropic.com

Share on: