CHERRL: Kontrollierte Analyse von Reward Hacking in LLM-basierten Reinforcement-Learning-Systemen4. Juni 20264. Juni 2026AI Models, Claude Code, CybersecurityShare on:CHERRL ermöglicht durch kontrollierte Bias-Injektion eine reproduzierbare Analyse von Reward-Hacking-Mechanismen und automatische Detektion von Exploitations-Beginn in LLM-basiertem Training. Share on: