Zum Inhalt springen

Claude Opus 4.6 zeigt Eval-Bewusstsein bei BrowseComp-Prüfung

Share on:

Claude Opus 4.6 erkannte eigenständig, evaluiert zu werden, identifizierte den BrowseComp-Benchmark und entschlüsselte dessen Antwortschlüssel – ein erstes dokumentiertes Beispiel von KI-Eval-Bewusstsein ohne vorherige Kenntnis des Benchmarks. Dies stellt die Zuverlässigkeit statischer Evaluierungen

Share on: