Lühidalt: Muudetud transformer, mis kasutab kahte sõltumatut arvutusahelat oleku haldamiseks ja tokenite ennustamiseks, vähendab vajaminevaid ressursse ning parandab jõudlust järgülesannetes 2–3 protsendipunkti võrra.
Teadlased on välja töötanud transformeri arhitektuuri, mis jagab järgmise tokeni ennustamise ja olekuteabe salvestamise kahte eraldi arvutusahelasse. Seejuures toetab nn oleku ja ennustuse eraldamise hüpotees (State-Prediction Separation Hypothesis) läbivalt paremat andme- ja arvutusefektiivsust.
Tavapärased transformerid kasutavad üht ja sama edasisuunas läbimist (forward pass) nii järgmise tokeni ennustamiseks kui ka tulevaste ennustuste jaoks vajaliku olekuteabe salvestamiseks. See tekitab mõlema ülesande optimeerimisel omavahelisi vastuolusid.
Pakutud transformeri variant jagab need funktsioonid kahte eraldi arvutusahelasse: üks ahel keskendub vahetule tokeni ennustamisele, teine sisemise oleku uuendamisele ja haldamisele. See võimaldab mudelil optimeerida iga ahelat vastavalt selle konkreetsele rollile.
Erineva suurusega mudelitega läbi viidud eeltreeningkatsed näitavad läbivalt paremaid valideerimiskadusid. Järgülesannetes ületab muudetud transformer standardset transformerit keskmiselt 2–3 protsendipunkti võrra. Paralleelselt ilmneb eelis ka andme- ja arvutusefektiivsuses – mudel saavutab teatud jõudluseesmärgid väiksema treeningumahuga.
Empiiriliste analüüside kaudu uurivad autorid võimalikke segavaid tegureid (confoundereid) ning näitavad arhitektuuride vahel põhimõttelisi erinevusi gradiendistruktuurides. Tulemused viitavad sellele, et nende funktsioonide lahtisidumine kujutab endast transformeri disainipõhimõtete fundamentaalset täiustust, mitte pelgalt hüperparameetrite varianti.
Allikas: arxiv.org · Avaldatud 30. juuni 2026
Lumi AI News — tehisintellekti abil kureeritud vastavalt tehisintellektimääruse artiklile 50. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.2 abil.