Jailbreak-Erkennung durch Entropiedynamiken in LLM-Zwischenschichten

Jailbreak-Intenten hinterlassen messbare Entropie-Signaturen in Zwischenschichten von LLMs, die verlässlicher sind als statische Durchschnittswerte.

Share on: