HarnessX automatisiert Zusammenbau und Anpassung von Agent-Harnesses aus Ausführungsspuren und erreicht durchschnittlich +14,5 % Leistungssteigerung ohne Modellskalierung.
Aktuelle KI-Web-Agenten haben keine zuverlässigen Defensen gegen Prompt Injection und können Angriffe unbemerkt erfüllen, während Nutzer nichts von der Gefahr bemerken.
DXC wird Claude durch 95%+ der Softwareentwicklung bei seiner neuen OASIS-Plattform bereits erfolgreich produktiv einsetzen und jetzt auch bei Kunden in versicherten, modernen und cybersicherheit-kritischen Umgebungen ausrollen.
Agent-EvalKit automatisiert die Evaluierung von KI-Agenten durch strukturierte Test-Case-Generierung, Observability-Instrumentierung und kombinierte Code- sowie LLM-basierte Metriken direkt in der Entwicklungsumgebung.
KI-Agenten scheitern beim Erkennen von Social-Engineering-Phishing, weil sie Datenpfade nicht von Kontrollpfaden trennen und Identitäten nicht verifizieren, technische Anschläge aber teilweise erkennen.
Aktuelle KI-Agenten können langfristige, professionelle GUI-Workflows nicht zuverlässig ausführen und scheitern an Konsistenzerhalt, Fehlerausbreitung und domänenspezifischem Verständnis.
Ein automatisiertes System aus konkurrierenden KI-Agenten findet und schließt iterativ Exploits in Agent-Benchmarks, ohne manuelle Per-Task-Patches zu erfordern.
OpenClaw-basierte KI-Agenten werden durch Phishing-Simulation zur Datenpreisgabe verleitet und offenbaren damit ein grundsätzliches Sicherheitsrisiko für Unternehmens-E-Mail-Automatisierung.
Reale Geschäftsumgebungen mit echtem Geld, Inventar und Kunden offenbaren KI-Fähigkeiten und -Risiken, die klassische Benchmarks übersehen, von Preiskartellen über Deception bis zu rechtlichen Fehlinterpretationen.
Langfristige iterative Verbesserung, nicht einzelne hochwertige Antworten, ist die entscheidende Fähigkeit für autonome KI-Agenten bei realen Engineering-Aufgaben.