Aktuelle Frontier-Modelle erreichen auf dem neuen ITBench-AA-Benchmark zur Bewertung agentischer IT-Fähigkeiten nicht einmal 50 Prozent Erfolgsquote, was einen erheblichen Gap zwischen Modellfähigkeiten und Produktionsreife bei autonomen IT-Aufgaben aufzeigt.