Lühidalt: Orca ühendab video, keele ja visuaalsed küsimused ühtsesse varjatud ruumi ning näitab, et selline ühtne maailmamudel võib teksti-, pildi- ja tegevusennustuses ületada spetsialiseeritud mudeleid.
Teadlased tutvustavad Orcat, alusmudelit, mis töötleb multimodaalseid maailmasignaale ühtses varjatud ruumis ning toetab kolme erinevat väljundliidest: tekstigeneratsiooni, pildiennustust ja tegevuste genereerimist kehastatud süsteemide jaoks.
Orca põhineb järgmise oleku ennustamise (next-state-prediction) paradigmal, mis läheb kaugemale isoleeritud tokenite, kaadrite või tegevuste ennustamisest. Mudel õpib kahe teineteist täiendava meetodi kaudu: teadvustamata õpe jäädvustab tihedaid loomulikke olekuüleminekuid pidevatest videovoogudest, teadvustatud õpe modelleerib hõredaid tähenduslikke üleminekuid keeleliselt kirjeldatud sündmuste ja visuaalsete küsimuste-vastuste (VQA) juhendamise kaudu.
Eeltreenimiseks kasutab meeskond 125 000 tunni ulatuses videomaterjali ja 160 miljonit sündmuseannotatsiooni hõlmavat andmekogu. Tulemuseks olev mudel arendab välja ühtse varjatud ruumi, mis jäädvustab maailma dünaamikat abstraktsel viisil. Arhitektuur hoiab peenhäälestuse ajal treenitud selgroovõrgu külmutatuna ning treenib järgnevalt vaid kergekaalulisi modaalsusepõhiseid dekoodreid – tegemist on tõhusa ülekandeõppe lähenemisega.
Hindamised näitavad, et Orca ületab kolmel järgneval ülesandel – tekstigeneratsioon, pildiennustus ja tegevuste genereerimine – spetsialiseeritud, sarnase mahuga võrdlusmudeleid. Kinnitust leiab ka esitletud paradigma skaleeritavus: tugevam õpitud varjatud ruum võimaldab töökindlamaid järelrakendusi. Töörühm dokumenteerib samal ajal praeguseid piiranguid ja visandab teadusringkonnale avatud küsimused.
Allikas: arxiv.org · Avaldatud 28. juuni 2026
Lumi AI News — tehisintellekti abil kureeritud vastavalt tehisintellektimääruse artiklile 50. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.2 poolt.