Vertrauen in KI entsteht nicht automatisch, sondern muss je nach Anwendungskontext und regulatorischen Anforderungen systematisch durch Explainability-Massnahmen aufgebaut werden.
Anthropic fordert eine Luftfahrtaufsicht ähnliche Regulierungsbehörde oder beauftragte private Prüfer, um KI-Modelle vor ihrer Freigabe auf kritische Risiken zu untersuchen.
53 Prozent der Arbeitnehmer nutzen bereits private KI-Tools im beruflichen Kontext, weil die IT-Abteilungen keine genehmigten Alternativen bereitstellen.
InternVideo3 ermöglicht Foundation-Modellen, längere Videosequenzen mit iterativem Reasoning und Werkzeugnutzung zu analysieren, ohne dabei in Effizienzprobleme bei der KV-Cache-Verwaltung zu geraten.
Arbor ermöglicht KI-gesteuerte Forschung durch systematische Hypothesen-Verwaltung und erzielte auf sechs Testaufgaben durchschnittlich 2,5x höhere Verbesserungen als bestehende Code-Modelle.
Arbor koordiniert autonome KI-Agenten über persistente Hypothesenbäume und erzielte auf sechs Forschungsaufgaben 2,5-fach bessere Ergebnisse als Codex und Claude Code.
Bebop nutzt Rejection Sampling und TV-Loss-Optimierung, um MTP-Akzeptanzraten in RL-Training stabil zu halten und Rollouts um bis zu 1,8-fach zu beschleunigen.
RACES ermöglicht die automatische Komposition verifizierbarer Umgebungen durch rekursive Kombination, worauf hin DeepSeek-R1-Distill-Qwen-14B um 3,1 Punkte und Qwen3-14B um 2,3 Punkte bei sechs Benchmarks zulegte.