Bebop: Rejection Sampling verbessert Multi-Token-Prediction in RL-Training11. Juni 202611. Juni 2026AI Models, Claude CodeShare on:Bebop nutzt Rejection Sampling und TV-Loss-Optimierung, um MTP-Akzeptanzraten in RL-Training stabil zu halten und Rollouts um bis zu 1,8-fach zu beschleunigen. Share on: