Lühidalt: FlashMorph teisendab transformerid hübriid-attention-mudeliteks, tehes optimaalse valiku selle kohta, millised kihid vajavad täielikku attention’i ja millised saab asendada lineaarse attention’iga.
Teadlased tutvustavad FlashMorphi — meetodit, mille abil valida, millised transformeri kihid säilitavad täieliku attention’i ja millised asendatakse tõhusama lineaarse attention’iga. Meetod optimeerib hübriidkonfiguratsiooni eelarve piirangute alusel, selle asemel et tugineda heuristikatele.
Hübriidmudelite probleem: Hübriid-attention-arhitektuurid parandavad pikkade kontekstide töötlemise tõhusust, säilitades täieliku attention’i vaid vähestes kihtides ja asendades ülejäänud lineaarse attention’iga. See säästab arvutusaega ja mälu. Sellise teisenduse tulemuslikkus sõltub aga suuresti sellest, millised kihid täieliku attention’i säilitavad. Senised valikumeetodid on kasutanud lihtsaid heuristikaid, näiteks kindlaid mustreid või üksikute kihtide hindamist, käsitledes kihte seega isoleeritult, selle asemel et arvestada nende vastastikuseid sõltuvusi kogu konfiguratsioonis.
FlashMorphi lähenemine: Uus meetod sõnastab kihtide valiku eelarvepiiranguga alamhulga optimeerimisülesandena. FlashMorph ehitab kõigepealt teisendatava mudeli, milles iga täieliku attention’iga kiht varustatakse teisendatud lineaarse attention’i variandiga. Seejärel külmutatakse kõik kaalud ning kihipõhised väravad (gating-mehhanismid) optimeeritakse ühiselt sünteetiliste pika konteksti otsinguülesannete peal. Lineariseerimise regulariseerimine julgustab mudelit eelistama tõhususe nimel lineaarset attention’i. Õpitud väravad diskretiseeritakse seejärel — teisisõnu teisendatakse iga kihi kohta binaarseteks otsusteks — arvestades ette antud eelarvet täieliku attention’iga kihtide arvu kohta. Lõpuks järgnevad standardne logitite destilleerimine ja pika konteksti peenhäälestus.
Praktilised järeldused: Inseneridele, kes arendavad pika kontekstiga LLM-e (näiteks dokumentide töötluseks või otsinguülesanneteks), pakub FlashMorph süstemaatilise meetodi juhuslike heuristikate asemel. Meetod vähendab oluliselt valikuprotsessi lisakulu ning leiab tõhusamaid hübriidkonfiguratsioone, mis säilitavad tugeva pika konteksti meenutusvõime ja üldise võrdlustestide tulemuslikkuse. See vähendab aega ja arvutusvõimsust, mis kulub olemasoleva transformeri sihipäraseks kohandamiseks pikkade kontekstide jaoks.
Allikas: arxiv.org · Avaldatud 28. juuni 2026
Lumi AI News — tehisintellekti abil kureeritud vastavalt tehisintellektimääruse art. 50 nõuetele. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.2 poolt.