Skip to content

PACE: agentide võrdlustestide tulemuste ennustamine odavate üksiktestide abil

Lühidalt: Raamistik, mis ennustab agentide võrdlustestide tulemusi odavate üksiktestide põhjal, saavutab 85-protsendilise järjestustäpsuse alla 1% hindamiskuludest.

Teadlased tutvustavad PACE-d, raamistikku, mis ennustab LLM-agentide jõudlust kallitel võrdlustestidel, nagu SWE-Bench ja GAIA, oluliselt odavamate üksikvõimekuse testide põhjal. Meetod vähendab hindamiskulusid alla 1% protsendi, säilitades seejuures ühekohalise veapiirkonna täpsuse.

Probleem seisneb skaleeritavuses: LLM-agentide täielik hindamine väljakujunenud võrdlustestidel maksab mitu tuhat dollarit ja nõuab keerulise infrastruktuuriga päevi arvutusaega. Seevastu mitteagentide võrdlustestid, mis kontrollivad selliseid isoleeritud võimekusi nagu arutlemine või koodi genereerimine, kulgevad kiiresti ja odavalt.

PACE täidab selle lünga regressioonipõhise lähenemisega: raamistik valib olemasolevate mitteagentide hindamiste hulgast kompaktse alamhulga juhtumeid, mille koondtulemused ennustavad usaldusväärselt mudeli jõudlust agentide võrdlustestidel. Valik ühendab kaks teineteist täiendavat strateegiat – lokaalse juhtumite valiku vastavalt sihtasjakohasusele ning globaalse valiku informatiivsete juhtumite leidmiseks.

Testides, kus osales 14 mudelit, 4 agentide võrdlustesti ja 19 mitteagentide võrdlustesti, saavutas PACE-Bench liitmise-välja-jätmise ristvalideerimisel keskmise absoluutse vea (MAE) alla 4%, Spearmani korrelatsioonid üle 0,80 ja paarisvõrdluse järjestustäpsuse ligikaudu 85%. Kulud jäid seejuures alla 1% täielikust agendi hindamisest.

Tehnikajuhtidele on see oluline, et teha mudelite arendamise, valiku ja suunamise käigus usaldusväärseid prognoose agentide võimekuse kohta, kandmata kallite täisulatuslike võrdlustestide infrastruktuurikoormust. Valitud asendusjuhtumite analüüs paljastas ka, milliseid üksikvõimekusi eri agentide võrdlustestid konkreetselt nõuavad.


Allikas: arxiv.org · Avaldatud 1. juuli 2026
Lumi AI News — tehisintellekti abil kureeritud vastavalt tehisintellektimääruse artiklile 50. Parafraseerimise ja klassifitseerimise teostas Lumi News Pipeline v1.7.2.

Share on: