Sprachmodelle erreichen bei der Unterscheidung zwischen empathischer Unterstützung und übertriebener Bestätigung in bengalischen Gesprächen nur 61–62 Macro-F1, was erhebliche Risiken für sozial sensible Anwendungen signalisiert.
Während Video-Generierungsmodelle visuell überzeugende Bewegungen erzeugen, korreliert visuelle Qualität nicht mit der praktischen Ausführbarkeit durch Roboter — ein Evaluierungskriterium, das Standard-Metriken übersehen.
Aktuelle Frontier-Modelle erreichen auf dem neuen ITBench-AA-Benchmark zur Bewertung agentischer IT-Fähigkeiten nicht einmal 50 Prozent Erfolgsquote, was einen erheblichen Gap zwischen Modellfähigkeiten und Produktionsreife bei autonomen IT-Aufgaben aufzeigt.