Vergiftete Dokumente können Reasoning-basierte KI-Guardrails zu DoS-Waffen machen, indem sie Sicherheitssysteme selbst als Ressourcensenke nutzen – ein neuer Angriffsvektor mit Konzentrationrisiken in gemeinsamer Governance-Infrastruktur.
Angreifer können Reasoning-Guardrails von KI-Agenten durch gezielt manipulierte Eingaben zu einer Ressourcenerschöpfung führen, ohne die Sicherheitsmechanismen selbst zu umgehen.
Legitime KI-Agenten erfüllen naturgemäß alle drei Kriterien der „letalen Trifekta“ (Datenzugriff, externe Inhalte, externe Kommunikation), daher muss sich die Sicherheit vom Architektur-Design zu Laufzeit-Überwachung verlagern.