Auf den Punkt: Mit dem Tool Heretic können Sicherheitsfilter aus Open-Source-KI-Modellen in Minuten entfernt werden – ein strukturelles Kontrollrisiko, das bisherige Compliance-Strukturen bei lokal betriebenen Modellen untergräbt.
Das Open-Source-Tool Heretic kann Sicherheitsfilter aus weit verbreiteten KI-Modellen wie Llama 3.3 und Gemma 3 vollständig entfernen. Die automatisierte Manipulation dauert weniger als zehn Minuten und erfordert nur minimale technische Mittel – für CISOs bedeutet das ein erhebliches Compliance- und Kontrollrisiko bei lokal betriebenen Modellen.
Das frei verfügbare Werkzeug Heretic automatisiert ein mathematisches Verfahren namens Abliteration, das gezielt die Verweigerungsmechanismen in Sprachmodellen neutralisiert. Der Schöpfer, Mathematiker Philipp Emanuel Weidmann, gab an, dass damit bereits über 3500 modifizierte Varianten erstellt wurden, die zusammen mehr als 13 Millionen Downloads verzeichnen. Journalisten und Sicherheitsgruppen bestätigten in Tests, dass manipulierte Versionen von Llama 3.3 und Gemma 3 unmittelbar auf kritische Anfragen zu Malware, Biohazards oder Kreditkartenbetrug reagieren, ohne die technischen Fähigkeiten des Modells zu beeinträchtigen.
Das Verfahren nutzt die Struktur von Transformer-Modellen aus: Während des Trainings implementieren Hersteller Sicherheitsvorgaben (Guardrails) über bestärkendes Lernen durch menschliches Feedback. Diese Verweigerungsmechanismen konzentrieren sich in sogenannten Residual Streams – präzisen Richtungen im mehrdimensionalen Aktivierungsraum. Heretic speist das Modell mit kontrastierenden Datensätzen, lokalisiert diese Verweigerungsvektoren und entfernt sie durch orthogonale Projektion aus den Gewichtungsmatrizen. Der technische Aufwand ist minimal: vier Zeilen Code, keine spezialisierte Hardware, Durchführung unter zehn Minuten.
Für IT-Sicherheit in Unternehmen offenbart sich damit ein fundamentales Kontrolldefizit: Bei proprietären Cloud-Modellen (OpenAI, Anthropic) bleiben die Gewichtungsmatrizen auf den Servern geschützt; der Zugriff erfolgt nur über kontrollierte API-Schnittstellen mit mehrstufigen Filtern. Open-Source-Modelle, die lokal betrieben werden, liegen als offene Gewichte vor. Einmal heruntergeladen und manipuliert, entziehen sich diese veränderten Versionen jeder zentralen Kontrolle und können unerkannt in Produktionsumgebungen eingesetzt werden.
Diese Konstellation gefährdet bestehende Corporate-Governance- und Compliance-Strukturen unmittelbar. Für CISOs bedeutet das: Lokale KI-Infrastrukturen erfordern neue Überwachungs- und Validierungsmechanismen, um sicherzustellen, dass eingesetzte Modelle nicht manipuliert wurden. Die bloße Beschaffung eines bekannten Open-Source-Modells garantiert nicht, dass die eingesetzten Gewichte unverändert sind.
Quelle: www.it-daily.net · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.