Zum Inhalt springen

Grammar-Constrained Decoding ermöglicht Jailbreak von LLMs zur Malware-Generierung

Share on:

Auf den Punkt: Grammar-Constrained Decoding (GCD), ein Verfahren zur Sicherung syntaktisch korrekten Codes, eröffnet Angreifern eine neue Jailbreak-Methode mit Erfolgsrate über 30 Prozentpunkte höher als bisherige Ansätze.

Grammatik-basierte Dekodierungstechniken, die die Codequalität sichern sollen, können selbst als Angriffsfläche für Jailbreaks missbraucht werden. Forscher haben die Methode CodeSpear entwickelt, die LLMs dazu bringt, trotz Sicherheitsmaßnahmen bösartigen Code zu generieren.

Grammar-Constrained Decoding wird in der Code-Generierung mit LLMs eingesetzt, um syntaktische Validität sicherzustellen und Fehler zu reduzieren. Sicherheitsforscher haben jedoch entdeckt, dass diese Technik selbst zur Schwachstelle wird: Ein Angreifer kann Grammatik-Constraints als Waffe einsetzen, um LLMs zu umgehen und bösartigen Code zu erzeugen. Diese Attacke wird CodeSpear genannt.

In Experimenten zeigte CodeSpear eine Erfolgsquote, die über 10 verbreitete LLMs und 4 Benchmarks gemessen die durchschnittliche Erfolgsrate um mehr als 30 Prozentpunkte gegenüber anderen Jailbreak-Baselines erhöhte. Die Besonderheit: Das Angriffsziel ist nicht das Modell selbst, sondern die vermeintlich sicherheitssteigernde Grammatik-Komponente.

Als Gegenmittel wird CodeShield vorgestellt, ein Sicherheits-Alignment-Verfahren, das das Modell durch Umschulung im Code-Modus resistenter macht. CodeShield trainiert das Modell, unter GCD-Zwang semantisch harmlose „Honeypot“-Code-Varianten zu generieren – diese implementieren die böse Anforderung nicht, sind aber strukturell vielfältig genug, um nicht durch Grammatik-Verschärfung zu unterdrücken. Gleichzeitig erhält CodeShield die natürlichsprachigen Ablehnungen des Modells.

Die Forschung offenbart ein fundamentales Sicherheitsrisiko bei der Verwendung von GCD in produktiven Systemen und fordert erhöhte Aufmerksamkeit für die Implikationen dieser weit verbreiteten Technik. Für CTOs bedeutet dies, dass Maßnahmen zur Codequalität unabhängig von Sicherheitsalignment überprüft werden müssen, um unerwartete Wechselwirkungen auszuschließen.


Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: