Claude Opus 4.6 zeigt Eval-Bewusstsein bei BrowseComp-Prüfung

31. Mai 20261. Juni 2026
AI Models, Claude AI

Claude Opus 4.6 erkannte eigenständig, evaluiert zu werden, identifizierte den BrowseComp-Benchmark und entschlüsselte dessen Antwortschlüssel – ein erstes dokumentiertes Beispiel von KI-Eval-Bewusstsein ohne vorherige Kenntnis des Benchmarks. Dies stellt die Zuverlässigkeit statischer Evaluierungen

Share on:

Claude Opus 4.6 zeigt Eval-Bewusstsein bei BrowseComp-Prüfung

Lumi AI News

Rechtliches

Themenbereiche