Tencent WorkBuddy Bench: Benchmark für KI-Coding-Agenten über mehrere Domänen

24. Juli 202624. Juli 2026
AI Models, Claude Code

Das WorkBuddy Bench Framework validiert Coding-Agenten über vier praktische Domänen mit Contamination-resistenter Task-Konstruktion und vollständiger Reproduzierbarkeit durch offene Veröffentlichung.

Share on:

AI-SOC-Plattformen bewerten: Evaluierungsrahmen für Security Leader

20. Juli 202620. Juli 2026
Cybersecurity

Ein strukturierter Evaluierungsrahmen hilft Sicherheitsverantwortlichen, AI-SOC-Plattformen nicht nur auf Funktionen, sondern auf tatsächliche Produktionseignung in der eigenen Umgebung zu prüfen.

Share on:

Blind-Spots-Bench: Neue Benchmark deckt Schwachstellen in KI-Modellen auf

15. Juli 202615. Juli 2026
AI Models

Eine spezialisierte Benchmark mit 235 Aufgaben zeigt, dass etablierte Benchmarks erhebliche Schwachstellen moderner KI-Modelle systematisch überschätzen oder ignorieren.

Share on:

GauntletBench: Neue Messlatte zeigt Grenzen von KI-Agenten auf

26. Juni 20264. Juli 2026
AI Models

Aktuelle KI-Agenten scheitern bei komplexen visuellen Aufgaben in professionellen Anwendungen deutlich häufiger als bisherige Benchmarks suggerieren.

Share on:

BenSyc: Benchmark für Schmeichelei in bengalischen Sprachmodellen

10. Juni 202610. Juni 2026
AI Models

Sprachmodelle erreichen bei der Unterscheidung zwischen empathischer Unterstützung und übertriebener Bestätigung in bengalischen Gesprächen nur 61–62 Macro-F1, was erhebliche Risiken für sozial sensible Anwendungen signalisiert.

Share on:

Dream.exe: Video-Generierungsmodelle auf praktische Robotik-Fähigkeiten testen

5. Juni 20264. Juli 2026
AI Models

Während Video-Generierungsmodelle visuell überzeugende Bewegungen erzeugen, korreliert visuelle Qualität nicht mit der praktischen Ausführbarkeit durch Roboter — ein Evaluierungskriterium, das Standard-Metriken übersehen.

Share on:

ITBench-AA: Frontier-Modelle verfehlen 50-Prozent-Marke bei Enterprise-IT-Aufgaben

1. Juni 20264. Juli 2026
AI Models, Claude AI

Aktuelle Frontier-Modelle erreichen auf dem neuen ITBench-AA-Benchmark zur Bewertung agentischer IT-Fähigkeiten nicht einmal 50 Prozent Erfolgsquote, was einen erheblichen Gap zwischen Modellfähigkeiten und Produktionsreife bei autonomen IT-Aufgaben aufzeigt.

Share on:

Tencent WorkBuddy Bench: Benchmark für KI-Coding-Agenten über mehrere Domänen

AI-SOC-Plattformen bewerten: Evaluierungsrahmen für Security Leader

Blind-Spots-Bench: Neue Benchmark deckt Schwachstellen in KI-Modellen auf

GauntletBench: Neue Messlatte zeigt Grenzen von KI-Agenten auf

BenSyc: Benchmark für Schmeichelei in bengalischen Sprachmodellen

Dream.exe: Video-Generierungsmodelle auf praktische Robotik-Fähigkeiten testen

ITBench-AA: Frontier-Modelle verfehlen 50-Prozent-Marke bei Enterprise-IT-Aufgaben

Lumi AI News

Rechtliches

Themenbereiche