Auf den Punkt: Offene Modelle schließen zur Frontier auf, aber unterschiedliche Benchmarking-Methoden und Evaluationsrahmenbedingungen erschweren verlässliche Leistungsvergleiche zwischen offenen und geschlossenen Systemen.
Google, DeepSeek, Xiaomi und andere Entwickler haben eine neue Generation offener KI-Modelle freigegeben. Eine Bewertung des Center for AI Standards and Innovation (CAISI) zeigt, dass offene Modelle zu geschlossenen Systemen aufholen, die Messung ist jedoch umstritten, da standardisierte Benchmarks echte Fähigkeiten möglicherweise nicht ausreichend abbilden.
Im Oktober 2024 wurden mehrere neue offene Sprachmodelle veröffentlicht: Googles Gemma 4 (4B-, 9B-, 31B-Dense sowie 26B-A4B-MoE), DeepSeeks V4-Flash, Moonshot-AIs Kimi K2.6, Xiaomis MiMo-V2.5-Pro und GLM-5.1. Das CAISI-Institut hat diese Modelle mittels eines Elo-Scores bewertet, der auf Item Response Theory basiert und Modelle über verschiedene Benchmarks vergleichbar macht. Die Bewertung nutzte neun unterschiedliche Benchmarks und zeigte gemäß CAISI einen sich vergrößernden Abstand zu amerikanischen Frontier-Modellen.
Der große Elo-Unterschied wird jedoch durch spezifische Benchmark-Eigenheiten erklärbar: DeepSeek V4 schnitt bei CTF-Archive-Diamond (extrapoliert aus Teildatensätzen), PortBench (CAISI-internes Benchmark) und ARC-AGI-2 (mit abweichender Bewertungsmethode) schwächer ab. Eine alternative Messung von Epoch AI mittels ECI zeigt hingegen, dass der Abstand zwischen offenen und geschlossenen Modellen seit Release des R1 ungefähr bei drei bis sieben Monaten liegt.
Beide Bewertungsrahmen haben Limitationen: Sie nutzen standardisierte, vereinfachte Setups, die echte Anwendungsfähigkeiten möglicherweise unterschätzen. So werden Coding-Tasks über eine Bash-Shell mit fester Token-Budget evaluiert, nicht über spezielle Harnesses wie Claude Code oder OpenCode, auf die Modelle trainiert wurden. Dies führt dazu, dass Benchmarks Aufgaben wie Sprachportierungen (beispielsweise Buns Migration von Zig zu Rust mit einer Million Zeilen Code-Änderungen) als unmöglich einstufen, obwohl sie praktisch gelöst wurden.
Für einen aussagekräftigen Vergleich zwischen offenen und geschlossenen Modellen wären modellspezifische Prompting-Strategien und die Verwendung der jeweiligen optimalen Evaluationsrahmenbedingungen notwendig. Bei den neuen offenen Modellen fällt besonders hervor: Google hat für Gemma 4 die Apache-2.0-Lizenz eingeführt und eliminiert damit die rechtliche Unsicherheit früherer Custom-Lizenzen. Xiaomis MiMo-V2.5-Pro konkurriert auf Augenhöhe mit Flagship-Modellen wie Kimi K2.6. Kimi K2.6 demonstriert lange Kontextfenster und Multi-Stunden-Aufgabensequenzen, was für autonome Forschungssysteme relevant ist. Poolside AIs Laguna-XS.2 (33B-A3B) bietet dedizierte Coding-Optimierung in kompakter Größe für lokale Deployments.
Quelle: www.interconnects.ai · Erschienen 16. Mai 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.0.