Auf den Punkt: Streaming-basiertes Multi-Agent-Reasoning reduziert Latenz durch Pipelinisierung und verbessert gleichzeitig Genauigkeit, weil frühe zuverlässigere Reasoning-Schritte vor fehlerhaften späteren Schritten schützen.
Ein neues System namens StreamMA überträgt Reasoning-Schritte zwischen Agenten in Echtzeit statt sequenziell, was die Latenz proportional zur Pipeline-Tiefe senkt und unerwartet auch die Genauigkeit verbessert. Das Prinzip: frühe Reasoning-Schritte sind zuverlässiger als späte, daher verhindern frühzeitige Übergaben, dass fehlerhafte spätere Schritte nachgelagerte Agenten in die Irre führen.
StreamMA ändert das klassische Paradigma multi-agenten-basierter Reasoning-Systeme, die bislang nach einem „Generate-then-Transfer“-Muster arbeiteten: ein Agent führt seinen gesamten Reasoning-Prozess durch, bevor das Ergebnis an den nächsten Agent übergeben wird. Dies führt zu einer linearen Skalierung der End-to-End-Latenz mit der Pipelinetiefe.
Das neue Streaming-Protokoll überträgt jeden Reasoning-Schritt unmittelbar nach seiner Generierung an nachgelagerte Agenten, wodurch benachbarte Agenten parallelisiert werden können. Die Forscher analysieren theoretisch und empirisch, dass Multi-Schritt-Reasoning keine gleichmäßige Qualität aufweist: frühe Schritte sind typischerweise zuverlässiger als späte. Dadurch vermeiden Downstream-Agenten, von fehlerhaften späten Schritten beeinflusst zu werden, wenn sie stattdessen mit den vertrauenswürdigeren frühen Ergebnissen arbeiten.
Evaluiert wurde StreamMA auf acht Reasoning-Benchmarks (Mathematik, Naturwissenschaften, Code-Generierung) mit zwei State-of-the-Art-Modellen (Claude Opus 4.6, GPT-5.4) über drei Topologien (Chain, Tree, Graph). Im Durchschnitt zeigte StreamMA eine Verbesserung um 7,3 Prozentpunkte gegenüber Baselines, maximal 22,4 Prozentpunkte auf HMMT 2026 mit Claude Opus 4.6-high.
Zusätzlich entdeckten die Autoren ein „Step-Level-Scaling-Gesetz“: Eine Erhöhung der Reasoning-Schritte pro Agent verbessert kontinuierlich sowohl Effektivität als auch Effizienz. Diese neue Skalierungsdimension arbeitet orthogonal zu und kombinierbar mit klassischen Agent-Count-Skalierungsansätzen.
Quelle: arxiv.org · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.