Auf den Punkt: Anthropic überarbeitet seine technischen Einstellungstests kontinuierlich, während KI-Modelle stärker werden. Der Take-Home-Test zur Code-Optimierung wurde dreimal neu gestaltet, um Top-Talente zu identifizieren und dem neuesten Claude-Modell voraus zu bleiben.
Tristan Hume von Anthropics Performance-Optimierungsteam beschreibt, wie man technische Evaluationen entwickelt, die künstliche Intelligenz widerstehen. Mit steigenden KI-Fähigkeiten müssen Einstellungstests ständig neu überarbeitet werden, um Top-Talente zu identifizieren.
Die Bewertung technischer Kandidaten wird immer schwieriger, je besser KI wird. Tests, die heute zwischen verschiedenen Leistungsstufen unterscheiden, können morgen von Modellen trivial gelöst werden und verlieren damit ihren Wert.
Seit Anfang 2024 nutzt Anthropics Performance-Engineering-Team einen Take-Home-Test, bei dem Kandidaten Code für einen simulierten Beschleuniger optimieren. Über 1.000 Kandidaten haben ihn absolviert, dutzende arbeiten jetzt dort, einschließlich Ingenieure, die den Trainium-Cluster aufbauten und jedes Modell seit Claude 3 Opus bereitstellten.
Doch jedes neue Claude-Modell erzwang eine Neukonstruktion des Tests. Unter denselben Zeitbeschränkungen übertraf Claude Opus 4 die meisten menschlichen Bewerber. Dies ermöglichte immer noch, die besten Kandidaten zu unterscheiden – bis Claude Opus 4.5 auch diese ebenbürtig wurde. Menschen können Modelle immer noch übertreffen, wenn sie unbegrenzte Zeit haben, aber unter den Take-Home-Bedingungen fehlte eine Möglichkeit, zwischen Top-Kandidaten und dem leistungsstärksten Modell zu unterscheiden.
Hume hat drei Versionen des Take-Home iteriert, um sicherzustellen, dass dieser aussagekräftig bleibt. Jede Version lehrte etwas Neues über robuste Evaluierungen gegen KI-Unterstützung. Das ursprüngliche Design wird nun als offene Herausforderung veröffentlicht – mit unbegrenzter Zeit übertreffendie besten Menschen immer noch Claude Opus 4.5.
Quelle: www.anthropic.com