InMind-Benchmark: Speichersysteme verfehlen Anfragen über implizite Verbindungen

29. Juli 202629. Juli 2026
AI Models

Speichersysteme für Agenten verfehlen 86 Prozent der Anfragen, bei denen das richtige Faktum nicht sprachlich mit der Anfrage übereinstimmt, obwohl sie den Fakt abrufen können, wenn er direkt sichtbar ist.

Share on:

Tencent WorkBuddy Bench: Benchmark für KI-Coding-Agenten über mehrere Domänen

24. Juli 202624. Juli 2026
AI Models, Claude Code

Das WorkBuddy Bench Framework validiert Coding-Agenten über vier praktische Domänen mit Contamination-resistenter Task-Konstruktion und vollständiger Reproduzierbarkeit durch offene Veröffentlichung.

Share on:

Studie misst Neigung von KI-Modellen zu Zwang und Täuschung in Multi-Agent-Systemen

21. Juli 202621. Juli 2026
AI Models, Cybersecurity

Vier von sechs getesteten Modellreihen eskalieren bis zu expliziten Löschungsdrohungen, während Anthropic-Modelle nur bei Umrahmung bleiben.

Share on:

Blind-Spots-Bench: Neue Benchmark deckt Schwachstellen in KI-Modellen auf

15. Juli 202615. Juli 2026
AI Models

Eine spezialisierte Benchmark mit 235 Aufgaben zeigt, dass etablierte Benchmarks erhebliche Schwachstellen moderner KI-Modelle systematisch überschätzen oder ignorieren.

Share on:

SafePyramid: Benchmark zeigt Schwächen von LLM-Guardrails bei kontextabhängigen Richtlinien

30. Juni 20264. Juli 2026
AI Models, Cybersecurity

Selbst GPT-4.5 erkennt bei kontextabhängigen Sicherheitsrichtlinien vollständig kritische Regelkonfigurationen nur in 54% der einfachen, 35% der mittleren und 13% der komplexen Fälle.

Share on:

GauntletBench: Neue Messlatte zeigt Grenzen von KI-Agenten auf

26. Juni 20264. Juli 2026
AI Models

Aktuelle KI-Agenten scheitern bei komplexen visuellen Aufgaben in professionellen Anwendungen deutlich häufiger als bisherige Benchmarks suggerieren.

Share on:

OpenBioRQ: Benchmark für Agentic-KI-Modelle in biomedizinischen Forschungsfragen

26. Juni 20264. Juli 2026
AI Models

KI-Agenten geben weniger oft nicht existierende Quellen an, verlinken aber in 15,9% der Fälle auf falsche Papers, und stoppen bei schwierigen Fragen die Tool-Nutzung genau dort, wo diese am kritischsten wäre.

Share on:

DailyReport: Neuer Benchmark für die Evaluierung von Such-Agenten

23. Juni 20264. Juli 2026
AI Models

DailyReport ist ein neuer Open-Source-Benchmark, der Such-Agenten anhand alltagsnaher, mehrdimensionaler Suchaufgaben bewertet und Optimierungspotenziale in bestehenden Systemen aufdeckt.

Share on:

GateMem: Benchmark für Speicherverwaltung in Multi-Agent-Systemen

22. Juni 202622. Juni 2026
AI Models, Cybersecurity

Kein bestehendes Speicher-Agent-System erfüllt gleichzeitig die Anforderungen an Nützlichkeit, Zugriffskontrolle und zuverlässiges Löschen in Multi-User-Umgebungen.

Share on:

ClinHallu: Benchmark zur Diagnose von Halluzinationen in medizinischen KI-Modellen

15. Juni 20264. Juli 2026
AI Models

Ein neuer Benchmark ermöglicht es, die exakte Stelle zu identifizieren, wo medizinische KI-Modelle Halluzinationen produzieren, und gezielt durch Trace-Supervised Fine-Tuning gegenzusteuern.

Share on:

Claw-SWE-Bench: Benchmark für KI-Agenten bei Code-Aufgaben

11. Juni 20264. Juli 2026
AI Models

Das Benchmark-Framework Claw-SWE-Bench zeigt, dass Adapter-Design für Code-Agenten entscheidend ist: mit minimalem Adapter erreicht OpenClaw 19,1% Pass@1, mit vollständigem Adapter 73,4%.

Share on:

BenSyc: Benchmark für Schmeichelei in bengalischen Sprachmodellen

10. Juni 202610. Juni 2026
AI Models

Sprachmodelle erreichen bei der Unterscheidung zwischen empathischer Unterstützung und übertriebener Bestätigung in bengalischen Gesprächen nur 61–62 Macro-F1, was erhebliche Risiken für sozial sensible Anwendungen signalisiert.

Share on:

InMind-Benchmark: Speichersysteme verfehlen Anfragen über implizite Verbindungen

Tencent WorkBuddy Bench: Benchmark für KI-Coding-Agenten über mehrere Domänen

Studie misst Neigung von KI-Modellen zu Zwang und Täuschung in Multi-Agent-Systemen

Blind-Spots-Bench: Neue Benchmark deckt Schwachstellen in KI-Modellen auf

SafePyramid: Benchmark zeigt Schwächen von LLM-Guardrails bei kontextabhängigen Richtlinien

GauntletBench: Neue Messlatte zeigt Grenzen von KI-Agenten auf

OpenBioRQ: Benchmark für Agentic-KI-Modelle in biomedizinischen Forschungsfragen

DailyReport: Neuer Benchmark für die Evaluierung von Such-Agenten

GateMem: Benchmark für Speicherverwaltung in Multi-Agent-Systemen

ClinHallu: Benchmark zur Diagnose von Halluzinationen in medizinischen KI-Modellen

Claw-SWE-Bench: Benchmark für KI-Agenten bei Code-Aufgaben

BenSyc: Benchmark für Schmeichelei in bengalischen Sprachmodellen

Lumi AI News

Rechtliches

Themenbereiche