Kokkuvõtvalt: Kõik testitud suured keelemudelid tsiteerivad tabeliväärtusi veaohtlikult, kuid spetsialiseeritud kriitikmudelite abil saab tulemusi parandada kuni 12 protsenti.
Teadlased on esmakordselt süstemaatiliselt uurinud, kui sageli teevad suured keelemudelid vigu tabeliväärtuste tsiteerimisel või vahelejätmisel — probleem, mis kahjustab vahetulemusi ka siis, kui lõplik vastus on õige.
Uuring hindab andmeviitamisvigu (Data Referencing Errors, DRE) eri mudelite ja ülesandetüüpide lõikes ning näitab, et kõik testitud mudelid, alates 1,7 miljardist kuni 20 miljardi parameetrini, teevad neid vigu. Kuigi suured keelemudelid mõistavad tabelite struktuuri, tsiteerivad nad väärtusi valesti või jätavad need vahele — see veatüüp kahjustab lisaks lõpliku vastuse täpsusele ka arutluskäigu jälgitavust.
Teadlased demonstreerivad, et kriitikmudel suudab neid vigu tuvastada ja parandada: kriitikupõhise filtreerimise ja tagasilükkamisel põhineva valimi (rejection sampling) abil kasvab vastuste täpsus kuni 12,0 protsenti. Väljaõpetatud 4 miljardi parameetriga kriitikmudel saavutab seejuures keskmise F1-skoori 78,2 protsenti nii mudeli treeningandmetega kooskõlas olevate kui ka nendest väljapoole jäävate DRE-de tuvastamisel.
Arendajate jaoks tähendab see, et tabelipõhised arutlusahelad peaksid sisaldama andmeviidete jaoks selgeid valideerimissamme. Kergekaalulist kriitikmudelit saab järelduste tegemise (inference) töövoogudesse integreerida eraldi valideerimisetapina ning see aitab suurematel mudelitel toota usaldusväärsemaid tulemusi — eriti olukordades, kus jälgitavus on kriitilise tähtsusega.
Allikas: arxiv.org · Avaldatud 29. juuni 2026
Lumi AI News — tehisintellekti abil kureeritud sisu vastavalt tehisintellektimääruse artiklile 50. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.2 kaudu.