Auf den Punkt: CoT-Feintuning degradiert Long-Context-Retrieval in hybriden LLMs durch Verzerrung der Query-Key-Projektionen; QK-Restore behebt dies ohne zusätzliches Training.

Chain-of-Thought-Feintuning verbessert zwar die Reasoning-Leistung von Hybrid-Sprachmodellen, zerstört aber systematisch deren Fähigkeit, Informationen über lange Kontextfenster hinweg abzurufen. Ein neues Training-freies Verfahren namens QK-Restore behebt dieses Problem.

Das Problem: Forscher haben dokumentiert, dass Chain-of-Thought (CoT) supervised fine-tuning bei Hybrid-LLMs mit linearer Attention (etwa HypeNet und Jet-Nemotron) zu schwerwiegenden Verlusten in der Long-Context-Retrieval-Leistung führt. Bei HypeNet-9B fiel die Retrieval-Genauigkeit auf dem Needle-In-A-Haystack-Test (NIAH-S2@256K) nach CoT-Feintuning von 67,2 % auf 9,4 % ab. Die Degradation verschärft sich bei größeren Kontextfenstern und anspruchsvolleren Abruf-Szenarien.

Die Ursache: Das CoT-Feintuning verzerrt die Aufmerksamungsgradienten systematisch zugunsten kurzfristiger Muster. Dies beschädigt die Query- und Key-Projektionsmatrizen (W_Q, W_K), die für das Long-Range-Routing essentiell sind. Das Modell kann dadurch nicht mehr zuverlässig relevante Informationen aus der gesamten Kontextlänge lokalisieren.

Die Lösung: QK-Restore ist ein Training-freies Verfahren, das nur die W_Q- und W_K-Matrizen aus dem Pre-SFT-Checkpoint restauriert, während alle anderen Parameter des feingestimmten Modells erhalten bleiben. Eine Procrustes-Variante balanciert zusätzlich zwischen Routing-Bewahrung und Reasoning-Anpassung. Bei HypeNet-5B verbesserte sich die S3@256K-Leistung von 65,4 % auf 76,4 %, während die Reasoning-Performance erhalten blieb.

Für Engineers bedeutet das: Das Verfahren ermöglicht es, CoT-Feintuning und Long-Context-Capability ohne zusätzliche Trainingskosten zu kombinieren. Dies ist besonders relevant bei der Entwicklung von Anwendungen, die sowohl komplexes Reasoning als auch zuverlässige Kontextverwaltung erfordern.

Quelle: arxiv.org · Erschienen 8. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

Hybride LLMs verlieren Long-Context-Fähigkeiten durch CoT-Feintuning

Lumi AI News

Rechtliches

Themenbereiche