Zum Inhalt springen

GEAR: Gemeinsames Training von Tokenizer und Generator für schnellere Bildsynthese

Auf den Punkt: End-to-End-Training des Tokenizers und Generators mit dualer Codebook-Auslese beschleunigt die ImageNet-Konvergenz um bis zu 10x gegenüber LlamaGen-REPA.

Forscher stellen GEAR vor, ein Verfahren zum gleichzeitigen Trainieren eines VQ-Tokenizers und eines autoregressiven Generators für die Bildgenerierung. Das Schlüsselproblem der Nicht-Differenzierbarkeit von VQ-Indizes wird durch eine duale Codebook-Auslese gelöst, die den Generator das Training des Tokenizers steuern lässt.

Visuelle generative Modelle werden üblicherweise in zwei getrennten Phasen trainiert: Zuerst wird ein Tokenizer für die Rekonstruktion trainiert und dann eingefroren, anschließend trainiert man einen Generator auf seinen diskreten Indizes oder kontinuierlichen Latentvektoren. Diese Entkopplung führt dazu, dass der Tokenizer nicht weiß, welche Strukturen der Generator leicht modellieren kann.

GEAR (Guided End-to-end AutoRegression) löst dieses Problem durch gemeinsames und end-to-end-Training eines VQ-Tokenizers und eines autoregressiven Generators, geleitet durch Representation Alignment. Das Kernproblem dabei: Der VQ-Index, der dem AR-Modell übergeben wird, ist nicht differenzierbar – Gradienten erreichen den Tokenizer normalerweise nicht, und ein Straight-Through-Estimator kollabiert. GEAR behebt dies durch eine duale Auslese der Codebook-Zuordnung: Ein Hard-Branch mit One-Hot-Codierung trainiert das AR-Modell mit Next-Token-Vorhersage, während ein differenzierbarer Soft-Branch einen Representation-Alignment-Loss trägt, der zurück zum Tokenizer fließt und diesen gezielt steuert. So wird der AR-Generator zu einem Guide für seinen Tokenizer in Richtung einer Indexverteilung, die der Generator selbst leichter vorhersagen kann.

Diese Umkehrung des Alignment-Fokus führt zu asymmetrischen Feature-Eigenschaften: Die Features des Tokenizers werden weniger DINOv2-ähnlich, während die des AR-Generators stärker DINOv2-ähnlich werden – das Gegenteil der Diffusionsansätze, die den Latentvektor selbst semantisch machen.

In Experimenten beschleunigt GEAR die ImageNet-gFID-Konvergenz um bis zu das 10-fache im Vergleich zur LlamaGen-REPA-Baseline und erlernt deutlich bessere Patch-Level- und räumlich kohärente Features. Das Verfahren generalisiert zudem über verschiedene Quantisierer (VQVAE, LFQ, IBQ) hinweg und lässt sich auf Text-zu-Bild-Generierung anwenden.


Quelle: arxiv.org · Erschienen 29. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.

Share on: