Auf den Punkt: Grüne CI/CD-Checks sind kein zuverlässiger Indikator dafür, dass ein KI-generierter Pull Request produktionsreif ist.
Drei KI-basierte Code-Assistenten wurden in einem echten Software-Repository nebeneinander getestet, um ihre praktische Leistung beim Lösen identischer Aufgaben zu bewerten. Der Test zeigt, wo die Grenzen aktueller Code-Generierungssysteme liegen und was zwischen bestandenen Checks und produktionsreifer Software noch fehlt.
Der Realitätstest verglich Claude Code, Codex und Cursor in einem bestehenden Repository anhand konkret definierter Aufgaben. Alle drei Systeme wurden unter gleichen Bedingungen mit dem gleichen Code-Context und denselben Anforderungen konfrontiert. Dies schafft eine Basis für direkten Vergleich statt abstrakter Benchmark-Szenarien.
Ein zentrales Erkenntnisergebnis des Tests war, dass automatisierte Tests und CI/CD-Pipelines nur einen Teil der Code-Qualität abbilden. Obwohl einige KI-generierte Änderungen alle definierten Checks passierten, wiesen sie in der praktischen Bewertung durch Menschen deutliche Mängel auf – etwa beim Umgang mit Edge Cases, bei der Konsistenz mit bestehenden Conventions oder bei der Wartbarkeit des entstanden Codes. Ein grüner Check im Repository-System ist also keine Garantie für einen merge-fähigen Pull Request.
Der Test verdeutlicht damit eine wachsende Diskrepanz in der KI-gestützten Entwicklung: Während generative Modelle zunehmend besser in automatisierten Metriken abschneiden, bleibt die manuelle Code-Review ein notwendiger Filter. Engineers sollten KI-Assistenten als Produktivitätswerkzeuge nutzen, ohne die volle Verantwortung für Validierung, Sicherheit und Architektur-Konsistenz zu delegieren.
Quelle: www.golem.de · Erschienen 5. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.4.