AI-Sicherheit erfordert Transparenz über interne Modellstrukturen

28. Juli 202628. Juli 2026
AI Models, Regulation

Durch die Analyse interner Aktivierungsmuster in Sprachmodellen lässt sich deren Verhalten vorhersehbarer und kontrollierbarer gestalten, statt sie als Black Boxes zu akzeptieren.

Share on:

Anthropic identifiziert J-Space: neuronaler Verarbeitungsraum in Claude

7. Juli 20267. Juli 2026
AI Models, Claude AI

Anthropic hat einen neuronalen Bereich in Claude entdeckt, der Konzepte unabhängig vom Textfluss verarbeitet und neue Erkenntnisse über die interne Modellarchitektur ermöglicht.

Share on:

Anthropic entdeckt „Workspace“ in Claude-Sprachmodellen

6. Juli 20266. Juli 2026
AI Models, Claude AI

Claude hat einen internen „Workspace“ entwickelt, der internes Denken und mehrstufiges Reasoning ermöglicht und sich selbst ähnlich wie bewusste Gedanken organisiert.

Share on:

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

18. Juni 202618. Juni 2026
AI Models, Cybersecurity, Regulation

SAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden.

Share on:

Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen

15. Juni 20264. Juli 2026
AI Models

Ein trainierbarer Klassifizier prognostiziert anhand früher Hidden States mit 0,7 Macro-F1-Score, ob Activation Steering erfolgreich sein wird, ohne komplette Generierungen durchlaufen zu müssen.

Share on:

STRIDE: Trainingsdateneinfluss in LLMs via Sparse Recovery nachverfolgen

4. Juni 20264. Juli 2026
AI Models

STRIDE formalisiert Trainingsdatenzuordnung als Sparse-Recovery-Problem im Aktivierungsraum und erreicht dabei eine Größenordnung schneller Ergebnisse als gradientbasierte Verfahren.

Share on:

Claudes Gedanken in Sprache übersetzen

31. Mai 20261. Juni 2026
AI Models, Claude AI

Die Übersetzung von Claudes internen Denkprozessen in natürliche Sprache bietet neue Transparenzpotenziale für künstliche Intelligenz und ermöglicht tiefere Einsichten in KI-Funktionsweisen.

Share on:

Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen

31. Mai 20261. Juni 2026
AI Models, Claude AI

Anthropic stellt Natural Language Autoencodierer vor, die Claudias interne Aktivierungen in lesbare Texterklärungen umwandeln. Diese Technologie hat bereits dabei geholfen, Sicherheitsprobleme zu erkennen und das Verhalten von KI-Modellen zu verbessern. Die Methode nutzt zwei spezialisierte Systeme:

Share on:

AI-Sicherheit erfordert Transparenz über interne Modellstrukturen

Anthropic identifiziert J-Space: neuronaler Verarbeitungsraum in Claude

Anthropic entdeckt „Workspace“ in Claude-Sprachmodellen

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen

STRIDE: Trainingsdateneinfluss in LLMs via Sparse Recovery nachverfolgen

Claudes Gedanken in Sprache übersetzen

Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen

Lumi AI News

Rechtliches

Themenbereiche