Auf den Punkt: Legitime KI-Agenten erfüllen naturgemäß alle drei Kriterien der „letalen Trifekta" (Datenzugriff, externe Inhalte, externe Kommunikation), daher muss sich die Sicherheit vom Architektur-Design zu Laufzeit-Überwachung verlagern.
Während KI-Agenten immer mehr mit Datenzugriff, externer Eingabeverarbeitung und Kommunikationsfähigkeiten ausgestattet werden, reichen architektonische Schutzmaßnahmen allein nicht mehr aus. CTOs müssen Erkennungsmechanismen auf Laufzeit-Ebene implementieren, um Prompt-Injection-Angriffe zu erkennen.
Simon Willison, der Ingenieur, der den Begriff „Prompt Injection“ prägte, warnte im Juni 2025 vor der „letalen Trifekta“: drei Fähigkeiten, die in einem KI-Agenten kombiniert einen nahezu garantierten Angriffsvektor durch indirekte Prompt Injection bilden. Die Trifekta besteht aus Zugriff auf private Daten, Verarbeitung nicht vertrauenswürdiger Inhalte und der Möglichkeit zur externen Kommunikation. Willison dokumentierte diese Angriffsklasse mit einer langen Liste produktiver Exploits: Microsoft 365 Copilot, GitHub MCP Server, GitLab Duo, Slack AI, Google Bard und Amazon Q.
Früher konnte die Trifekta als Risiko-Signal genutzt werden, weil Agenten meist eng fokussiert waren. Agenten, die nur eine oder zwei der Fähigkeiten erfüllten, ließen sich als niedrigeres Risiko bewerten. Dieses Zeitfenster hat sich geschlossen: Ein kundenbezogener Support-Agent liest Ticket-Historien und Kundendaten, verarbeitet Nutzermeldungen und Dateien, ruft CRM-, Refund- und Ticketing-APIs auf. Ein E-Mail-Agent liest Postfach und Kalender, verarbeitet eingehende Nachrichten von Fremden und sendet Antworten im Namen des Nutzers. Diese sind nicht schlecht konfigurierte Ausnahmefälle, sondern die Agenten, die Unternehmen und Einzelne tatsächlich wollen und die Hersteller konstruieren.
Ross McKerchar, CISO bei Sophos, hielt im Mai 2025 fest: Die Fähigkeiten, die Praktiker tatsächlich wollen – Datenlesen, externe Kontexte verstehen, Maßnahmen einleiten – führen unweigerlich in gefährliches Territorium. Das ist keine Fehlkonfiguration, sondern die architektonische Kostenfolge von Nützlichkeit. Ein Agent ohne Datenzugriff ist nutzlos, einer der externe Inhalte nicht verarbeiten kann, ist isoliert, und einer der nicht extern kommunizieren kann, ist inert. Jedes Bein der Trifekta zu streichen bedeutet, etwas näher an eine Suchbox als an einen Agenten zu bauen.
Wenn jede legitime Agent-Architektur alle drei Trifekta-Eigenschaften aufweist, ist die Trifekta kein aussagekräftiger Risiko-Indikator mehr – sie ist die Standardkonfiguration. Sie als rotes Tuch zu behandeln entspricht dem Umgang mit DNS-Auflösung als Compromisezeichen: technisch wahr in manchen Bedrohungsmodellen, aber universal in jeder echten Bereitstellung vorhanden. Metas Security-Team veröffentlichte im Oktober 2025 die „Rule of Two“, ein Framework, das Agenten empfiehlt, in einer Session höchstens zwei der drei Trifekta-Eigenschaften zu erfüllen, mit menschlicher Genehmigung erforderlich, falls alle drei nötig sind. Willison selbst unterstützte das Framework als „praktischster Rat für sichere LLM-gestützte Agent-Systeme heute.“ Metas Limitations-Abschnitt räumt jedoch ein, dass viele gewünschte Use Cases nicht sauber ins Framework passen, und dass „Designs, die die Rule of Two erfüllen, immer noch fehleranfällig sein können.“ Das bestätigt, dass das Problem Architektur-Lösungen outgrown hat.
Der Umfang der Gefährdung ist nicht mehr theoretisch. Googles April-2026-Durchsuchung des Common-Crawl-Repositoriums fand Prompt-Injection-Versuche auf öffentlichen Webseiten, von Scherzen bis zu Datenexfiltrations-Payloads, mit bösartigen Versuchen um 32 Prozent zwischen November 2025 und Februar 2026 gestiegen. Die Antwort kann nicht länger auf Design-Ebene liegen – sie verlagert sich notwendig zu Laufzeit-Erkennung und Mitigation.
Quelle: www.csoonline.com · Erschienen 15. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.