Zum Inhalt springen

KI-Red-Teaming wird zur etablierten Sicherheitsdisziplin

Share on:

Auf den Punkt: KI-Systeme erfordern wegen ihrer probabilistischen Natur völlig neue Red-Teaming-Ansätze, die sich grundlegend von klassischer Penetrationstestung unterscheiden.

AI-Red-Teaming hat sich vom Nischennformat zur Kernfunktion in der Sicherheitstestung entwickelt. Mit der Einführung großer Sprachmodelle mussten Sicherheitsteams ihre Methoden grundlegend überarbeiten.

Als Ram Shankar Siva Kumar 2019 Microsofts KI-Red-Team gründete, war die Disziplin praktisch nicht vorhanden. Zur Anschaulichkeit: Ein Insider-Witz besagte damals, dass man alle KI-Red-Teamer in einen 14-Fuß-Katamaran passen würde. Microsofts erster Ansatz orientierte sich an klassischen Cybersecurity-Praktiken – Schwachstellen in Machine-Learning-Systemen identifizieren, Gegner emulieren, Vulnerabilities vor dem Markteintritt aufdecken.

Mit dem Erscheinen von GPT-4 änderte sich das fundamental. Die bisherigen Angriffsmethoden funktionierten plötzlich nicht mehr gegen Large Language Models. Siva Kumar: „The tool that we had changed; actually, it broke.“ Tools und Methodologien mussten komplett neu entwickelt werden – ebenso die Definition der Arbeit selbst. Heute unterhalten Microsoft, Anthropic, OpenAI, Google und Nvidia spezialisierte Red-Teaming-Teams. Das Feld wächst zu einer der schnellsten Cyber-Specializations heran, ringt aber noch mit der Grundfrage: Was ist der Job wirklich?

Der entscheidende Unterschied zu klassischer Softwaretestung liegt in der probabilistischen Natur von KI-Systemen. Ein Angriff funktioniert möglicherweise nur in 1 von 100 Fällen oder in 90 von 100 Fällen – nicht deterministisch wie traditionelle Software-Vulnerabilities. Das zwingt Sicherheitsteams, nicht nur zu fragen, ob eine Vulnerability existiert, sondern auch wie häufig sie auftritt, unter welchen Bedingungen und ob sie reproduzierbar ist. Systeme müssen mehrfach unter variierenden Bedingungen evaluiert werden.

Gleichzeitig eröffnet KI neue Angriffsflächen: Frontier-Modelle entdecken Vulnerabilities in komplexen Softwaresystemen mit einer Geschwindigkeit, die vor Jahren unmöglich schien. Sie finden subtile Interdependenzen und Verkettungen, die selbst nach Jahren menschlicher Analyse verborgen bleiben. Dieselbe analytische Kraft macht aber auch KI-Systeme selbst zu neuen Angriffszielen mit neuen Bedrohungsakteuren. Neben staatlichen Akteuren und Cyberkriminellen zählen dazu auch „Teenager mit Pottymund“ – neugierige User, die durch Prompt-Experimentieren bedeutende Jailbreaks und Prompt-Injection-Attacken entdecken, oft ohne spezielle Expertise.


Quelle: www.csoonline.com · Erschienen 10. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: