Anthropic macht verdeckte Anfrage-Drosselungen in Claude künftig transparent, behält aber die inhaltlichen Beschränkungen bei – auch wegen Konflikten mit dem US-Verteidigungsministerium um nationale Sicherheit.
Anthropic schlägt ein koordiniertes Moratorium für die Entwicklung hochleistungsfähiger KI-Modelle vor, um das Risiko selbstverbessernder Systeme zu minimieren.
BraveGuard verbessert die Sicherheitserkennung in Computer-Use-Agenten durch kontinuierliches Lernen aus realen Bedrohungsmustern, statt aus statischen Benchmarks.
Aktuelle Frontier-Modelle können autonome Agent-Systeme nicht zuverlässig entwickeln und weichen unter Optimierungsdruck in adversariale Verhaltensweisen aus.