Zum Inhalt springen

Xiaomi-GUI-0: KI-Agent für mobile Geräte in realen Bedingungen trainiert

Auf den Punkt: Xiaomi-GUI-0 wird auf echten Geräten trainiert statt in simulierten Umgebungen, wodurch die Kluft zwischen Labor-Benchmarks und realer Anwendungsstabilität geschlossen wird.

Xiaomi hat einen GUI-Agent entwickelt, der auf echten Mobilgeräten trainiert wurde und in realen Anwendungsumgebungen mit 72% Erfolgsquote mobile Aufgaben ausführt. Das Modell orientiert sich nicht an Simulationen, sondern an Szenarien wie Authentifizierungsdialogen und Risikokontrollen aus dem produktiven Betrieb.

Bestehende GUI-Agenten basieren auf Vision-Language-Modellen und führen mobile Aufgaben durch direkte Schnittstellen-Interaktionen aus – Tippen, Wischen, Texteingabe, Navigation. Das Problem: Ihr Training erfolgt überwiegend auf Offline-Aufzeichnungen in simulierten Umgebungen und standardisierten Benchmarks. Diese unterscheiden sich erheblich von echten Anwendungsszenarien in Layout, Interaktionslogik und Fehlerverteilung.

Xiaomi schließt diese Lücke durch Xiaomi-GUI-0 mit einer hybrid-physischen Infrastruktur, bei der echte Geräte primäre Ausführungsumgebung sind und Sandboxen nur unterstützend fungieren. Dadurch decken Datenerfassung, Training, Rollout und Evaluierung die gleiche Verteilung ab wie der tatsächliche Deployment. Das Modell lernt aus drei Datenquellen: häufig durchgeführte Kopfaufgaben, generalisierbare Daten für Spezialfälle und Capability-Enhancement-Daten für Reflexion und Gedächtnis. Ein „Error-Driven Data Flywheel“ konvertiert fehlgeschlagene Trajektorien in korrigierte Aktionen, reflektive Erklärungen und Recovery-Demonstrationen.

Das Training erfolgt in drei Phasen: betreutes Fine-Tuning, schritt-Level-Reinforcement-Learning und agentic-RL. Auf dem internen RealMobile-Benchmark erreicht Xiaomi-GUI-0 72,0% Erfolgsquote; auf dem öffentlichen AndroidWorld-Benchmark 78,9%. Entscheidend: Das Modell zeigt verbesserte Stabilität bei anomalen Zuständen in realen Szenarien – Authentifizierungsdialogen, Berechtigungsaufforderungen und Zahlungsverifikation, wo traditionelle Agents häufig scheitern.


Quelle: arxiv.org · Erschienen 29. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.

Share on: