Auf den Punkt: CausalMix nutzt kausale Modellierung statt statischer Annahmen, um optimale Daten-Mischverhältnisse zu finden, die über unterschiedliche Datenpoolgrößen und Modellskalen generalisieren.
Forscher schlagen CausalMix vor, einen Ansatz, der die Optimierung von Trainings-Datenmischungen für große Sprachmodelle als kausales Inferenzproblem formuliert. Das Verfahren generalisiert über verschiedene Modellgrößen hinweg, ohne kostspieliges Retraining erforderlich zu machen.
Das Verhältnis verschiedener Datenquellen beim Training von großen Sprachmodellen beeinflusst die finale Modellleistung erheblich. Bisherige Methoden optimieren die Mischgewichte durch Proxy-Modelle, setzen dabei aber voraus, dass die Datenverteilung konstant bleibt. Verschiebt sich die zugrundeliegende Datenbasis, müssen diese Methoden das Training von vorne beginnen — ein teurer Prozess, der eine Skalierung von kleinen auf größere Datenmengen und Modellgrößen praktisch unmöglich macht.
CausalMix behandelt dieses Problem durch kausale Inferenz: Die statistischen Merkmale des Datenpools werden als Kovariaten modelliert, die Doman-Mischung als Behandlung. Nach dem Training einer kausalen Inferenz-Pipeline auf 512 Durchläufen von Qwen2.5-0.5B zur Schätzung des Conditional Average Treatment Effect (CATE) extrapoliert das Verfahren die optimale Mischung für einen 800K-großen Datapool und wendet diese auf das Training eines 7-Milliarden-Parameter-Modells an. Das Framework wurde auch erfolgreich auf Long-Chain-of-Thought-Daten mit Qwen3-4B-Base generalisiert.
Der entscheidende Vorteil: Durch kausale Modellierung werden Störfaktoren isoliert, sodass CausalMix zustandsabhängig optimale Datenmischungen ableitet, ohne dass ein Retraining notwendig ist. In umfangreichen Experimenten übertrafen die durch CausalMix geleiteten Mischungen Baseline-Methoden wie RegMix durchgehend über mehrere Downstream-Tasks hinweg. Das Framework bietet zudem über einen CATE-Interpreter visuelle Einsichten in die gelernten Mischstrategien.
Quelle: arxiv.org · Erschienen 30. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.