Harness-1: Search-Agent mit ausgelagertem Zustandsmanagement durch RL trainiert2. Juni 20262. Juni 2026AI Models, Claude CodeShare on:Ein 20B-Search-Agent erreicht 0,730 durchschnittliche Curated Recall über acht Benchmarks, indem RL auf explizitem Zustand trainiert wird statt Zustandsverwaltung in die Policy zu integrieren. Share on: