Ein automatisiertes System aus konkurrierenden KI-Agenten findet und schließt iterativ Exploits in Agent-Benchmarks, ohne manuelle Per-Task-Patches zu erfordern.
CHERRL ermöglicht durch kontrollierte Bias-Injektion eine reproduzierbare Analyse von Reward-Hacking-Mechanismen und automatische Detektion von Exploitations-Beginn in LLM-basiertem Training.