Lühidalt: Tokeneerija ja generaatori otsast lõpuni treenimine koos duaalse koodiraamatu väljundiga kiirendab ImageNeti koonduvust kuni 10 korda võrreldes LlamaGen-REPA-ga.
Teadlased tutvustavad GEAR-i, meetodit VQ-tokeneerija ja autoregressiivse generaatori samaaegseks treenimiseks pildigeneratsiooni jaoks. VQ-indeksite mittediferentseeruvusega seotud võtmeprobleem lahendatakse duaalse koodiraamatu väljundi abil, mis võimaldab generaatoril juhtida tokeneerija treenimist.
Visuaalseid generatiivseid mudeleid treenitakse tavaliselt kahes eraldiseisvas etapis: kõigepealt treenitakse rekonstruktsiooniks tokeneerija ja külmutatakse see, seejärel treenitakse generaator selle diskreetsete indeksite või pidevate latentvektorite peal. See lahutatus tähendab, et tokeneerija ei tea, milliseid struktuure generaator kergesti modelleerida suudab.
GEAR (Guided End-to-end AutoRegression) lahendab selle probleemi VQ-tokeneerija ja autoregressiivse generaatori ühise ja otsast lõpuni treenimisega, mida juhib esituste joondamine (representation alignment). Keskne probleem on siin see, et AR-mudelile edastatav VQ-indeks ei ole diferentseeruv – gradiendid tavaliselt tokeneerijani ei jõua ning “straight-through” hinnangute meetod variseb kokku. GEAR lahendab selle koodiraamatu vastenduse duaalse väljundi abil: ühe-kuuma kodeeringuga “hard-branch” treenib AR-mudelit järgmise tokeni ennustamise abil, samal ajal kui diferentseeruv “soft-branch” kannab esituste joondamise kadu, mis voolab tagasi tokeneerijasse ja suunab seda sihipäraselt. Nii saab AR-generaatorist oma tokeneerija juhendaja, suunates seda indeksijaotuse poole, mida generaator ise kergemini ennustada suudab.
See joondamise fookuse ümberpööramine toob kaasa asümmeetrilised tunnusomadused: tokeneerija tunnused muutuvad vähem DINOv2-sarnaseks, samas kui AR-generaatori tunnused muutuvad DINOv2-sarnasemaks – see on vastupidine difusioonipõhistele lähenemistele, mis muudavad semantiliseks latentvektori enda.
Katsetes kiirendab GEAR ImageNeti gFID-koonduvust kuni 10 korda võrreldes LlamaGen-REPA lähtetasemega ning õpib selgelt paremaid plaastritasandi ja ruumiliselt sidusaid tunnuseid. Meetod üldistub lisaks erinevate kvantiseerijate (VQVAE, LFQ, IBQ) lõikes ning on rakendatav ka teksti-pildiks genereerimisel.
Allikas: arxiv.org · Avaldatud 29. juuni 2026
Lumi AI News — AI-toega kureerimine vastavalt tehisintellektimääruse artiklile 50. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.2 poolt.