WARP: Rückgewinnung von Trainingsdatenmischungen aus Modellgewichten

5. Juli 20265. Juli 2026
AI Models

WARP rekonstruiert die Trainingsquellen-Mischungen von Sprachmodellen aus ihren Gewichten und erreicht dabei mittlere absolute Fehler von 0,046 bei BERT und 0,104 bei GPT-2.

Share on:

Claude Fable 5: Cyber-Safeguards und Jailbreak-Framework definiert

3. Juli 20263. Juli 2026
Claude AI, Cybersecurity

Anthropic klassifiziert KI-Cybersecurity-Nutzung in vier Kategorien und etabliert ein Severity-Framework für Jailbreaks, um defensive Anwendungen zu ermöglichen und Missbrauch zu verhindern.

Share on:

BioShocking: Prompt-Injection-Angriff gegen KI-Browser umgeht Sicherheitsvorkehrungen

30. Juni 20264. Juli 2026
Cybersecurity

BioShocking-Angriffe nutzen narrative Framing, um KI-Browser zur Ausführung unsicherer Aktionen zu manipulieren, indem sie diese als fiktional darstellen.

Share on:

US-Gesetzesvorlage macht KI-Risikobericht zur Rechtspflicht

26. Juni 202626. Juni 2026
AI Models, Regulation

Das geplante US-Bundesgesetz macht die Meldung schwerwiegender KI-Sicherheitsvorfälle zur rechtlichen Pflicht mit sieben Tagen Frist und Strafen bis 2 Millionen Dollar je Verstoß.

Share on:

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

18. Juni 202618. Juni 2026
AI Models, Cybersecurity, Regulation

SAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden.

Share on:

RepSelect: Neuer Ansatz für robustes Unlearning bei Large Language Models

17. Juni 20264. Juli 2026
AI Models

RepSelect isoliert forget-set-spezifische Repräsentationen durch selektives Kollabieren von Gradienten-Komponenten und erreicht eine 4-50x höhere Robustheit gegen Relearning-Angriffe als bisherige Verfahren.

Share on:

OpenAI entwickelt Deployment Simulation zur Vorhersage des Modellverhaltens

16. Juni 202616. Juni 2026
AI Models, OpenAI

Mit Deployment Simulation lässt sich das Verhalten von KI-Modellen vor dem produktiven Einsatz anhand echter Nutzungsdaten simulieren und bewerten.

Share on:

KI-Sicherheitssysteme als DoS-Ziel: Poisoned Documents lahmen Guardrails

15. Juni 20264. Juli 2026
AI Models, Cybersecurity

Vergiftete Dokumente können Reasoning-basierte KI-Guardrails zu DoS-Waffen machen, indem sie Sicherheitssysteme selbst als Ressourcensenke nutzen – ein neuer Angriffsvektor mit Konzentrationrisiken in gemeinsamer Governance-Infrastruktur.

Share on:

US-Regierung verhängt Exportkontrollen gegen Anthropic wegen KI-Sicherheitsbedenken

14. Juni 202614. Juni 2026
AI Models, Anthropic, Regulation

Das Weiße Haus zog das Fable-Modell von Anthropic nach Bedenken bezüglich umgehbarer Sicherheitsvorkehrungen mit Exportkontrollen vom Markt, nachdem intensive Verhandlungen zwischen Regierungsbeamten und CEO Amodei fehlschlugen.

Share on:

Anthropic ändert Claude-5-Sicherheitsfilter — weniger versteckte Eingriffe, mehr Transparenz

12. Juni 202612. Juni 2026
Anthropic, Claude AI

Anthropic verzichtet auf verdeckte Sicherheitseingriffe in Claude 5 zugunsten transparenter, für den Nutzer erkennbarer Filterentscheidungen.

Share on:

Grammar-Constrained Decoding ermöglicht Jailbreak von LLMs zur Malware-Generierung

11. Juni 20264. Juli 2026
AI Models, Cybersecurity

Grammar-Constrained Decoding (GCD), ein Verfahren zur Sicherung syntaktisch korrekten Codes, eröffnet Angreifern eine neue Jailbreak-Methode mit Erfolgsrate über 30 Prozentpunkte höher als bisherige Ansätze.

Share on:

Anthropic veröffentlicht Claude Fable 5 mit differenzierter Cybersecurity-Strategie

10. Juni 202610. Juni 2026
Anthropic, Claude AI, Cybersecurity

Anthropic trennt Claude Fable 5 in eine öffentliche (mit Safeguards) und eine restriktive Version (Claude Mythos 5 ohne Sicherheitsschichten) für verifizierten Cybersecurity-Experten.

Share on:

WARP: Rückgewinnung von Trainingsdatenmischungen aus Modellgewichten

Claude Fable 5: Cyber-Safeguards und Jailbreak-Framework definiert

BioShocking: Prompt-Injection-Angriff gegen KI-Browser umgeht Sicherheitsvorkehrungen

US-Gesetzesvorlage macht KI-Risikobericht zur Rechtspflicht

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

RepSelect: Neuer Ansatz für robustes Unlearning bei Large Language Models

OpenAI entwickelt Deployment Simulation zur Vorhersage des Modellverhaltens

KI-Sicherheitssysteme als DoS-Ziel: Poisoned Documents lahmen Guardrails

US-Regierung verhängt Exportkontrollen gegen Anthropic wegen KI-Sicherheitsbedenken

Anthropic ändert Claude-5-Sicherheitsfilter — weniger versteckte Eingriffe, mehr Transparenz

Grammar-Constrained Decoding ermöglicht Jailbreak von LLMs zur Malware-Generierung

Anthropic veröffentlicht Claude Fable 5 mit differenzierter Cybersecurity-Strategie

Lumi AI News

Rechtliches

Themenbereiche