Skip to content

LUMOS: semantiline OS-kiht juurdepääsetavusele tuginevate tehisintellektiagentide jaoks

Lühidalt: Semantiline OS-kiht võimaldab tehisintellektiagentidel suhelda ekraanipiltide asemel juurdepääsetavuse metaandmete kaudu, mis vähendab tokenikulusid ja latentsust.

Teadlased on välja töötanud LUMOSe – semantilise interaktsioonikihi tehisintellektiagentide ja operatsioonisüsteemide vahel, mis pakub kasutajaliidese elementide ja juurdepääsetavuse metaandmete masinloetavaid esitusi, selle asemel et töödelda ekraanipilte. See vähendab oluliselt tokenikulusid, latentsust ja koordinaatide ebamäärasust tehisintellekti juhitud arvutikasutusagentide puhul.

Probleem on põhimõtteline: tänapäeva operatsioonisüsteemid pakuvad liideseid inimestele – piksleid, ikoone, aknaid, hiirekursorit –, mitte tehisintellektiagentidele. Seetõttu on arvutikasutusagendid sunnitud tõlgendama ekraanipilte, töötlema OCR-väljundeid ning analüüsima visuaalselt mitmetähenduslikke väljalõikeid. See toob kaasa suured tokenikulud, suurenenud latentsuse ja ebakindluse koordinaatide määramisel.

LUMOS (Language Model Unified Machine-Readable Operating-System Semantics) teisendab operatsioonisüsteemi loomupärased juurdepääsetavuse metaandmed ja brauseri kasutajaliidese struktuurid masinloetavateks semantilisteks mudeliteks, millel on stabiilsed identifikaatorid, rollid, nimed, väärtused, piirid ja võimalikud tegevused. Kiht toetab ka semantiliste osutite reaalajalist sidumist: süsteem saab operatsioonisüsteemi automatiseerimis-API-de kaudu välja selgitada, milline kasutajaliidese element asub kursori all või selle lähedal. Suur keelemudel tegutseb seejärel juurdepääsetavusele tugineva vaatlemis-tegutsemise tsükli kaudu, kasutades piiratud hulka nähtavaid kasutajaliidese algelemente – mitte rakendusepõhiseid skripte.

Inseneride jaoks tähendab see konkreetselt seda, et agendid vajavad vähem visuaalse konteksti töötlemist, kui operatsioonisüsteem pakub semantikat juba ette. LUMOS ei asenda visuaalseid agente, kuid vähendab sõltuvust ekraanipiltide tõlgendamisest seal, kus on saadaval struktureeritud juurdepääsetavuse liidesed. Lähenemine visandab tee tehisintellekti-põhiste operatsioonisüsteemide ja masinloetavate interaktsioonikihtideni, mis võivad muuta klassikalise automatiseerimise tõhusamaks.


Allikas: arxiv.org · Avaldatud 28. juuni 2026
Lumi AI News — tehisintellekti abil kureeritud sisu vastavalt tehisintellektimääruse artiklile 50. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.2 abil.

Share on: