Lühidalt: Orca õpib videote ja keeleliste annotatsioonide põhjal ühtse maailmarepresentatsiooni, mis võimaldab teksti genereerimist, kujutiste ennustamist ning agentide juhtimist külmutatud tugimudeli ja modulaarsete dekoodrite abil.
Teadlased tutvustavad Orcat, üldotstarbelist aluspõhimudelit, mis õpib multimodaalsetest signaalidest maailma ühtse varjatud ruumi (latent space) ja teeb selle kättesaadavaks erinevate väljundliideste kaudu. Süsteem ühendab video töötlemise, keelelise juhendamise ja kehastatud tehisintellekti (embodied AI) ühtses järgmise-oleku-ennustamise raamistikus.
Orca tugineb kahele täiendavale õppimisparadigmale: „alateadlik õppimine” eraldab tihedaid olekuüleminekuid pidevatest videotest, samas kui „teadlik õppimine” modelleerib hõredaid, tähenduslikke üleminekuid keeleliselt kirjeldatud sündmuste ja visuaalsete küsimus-vastus-ülesannete juhendamise põhjal. Erinevalt eraldiseisvatest ennustuseesmärkidest (järgmine token, järgmine kaader, järgmine tegevus) keskendub see lähenemine ühtsetele olekuüleminekutele, luues seeläbi järjepideva modelleerimistee mõistmiseks, ennustamiseks ja tegutsemiseks.
Eeltreeningu andmebaas hõlmab 125 000 tundi videomaterjali ja 160 miljonit sündmuse annotatsiooni. Õpitud varjatud ruumi kasutatakse seejärel külmutatud tugimudelina, kusjuures treenitavaks jäävad ainult kerged, modaalsusspetsiifilised dekoodrid. See arhitektuur võimaldab paindlikke järelrakendusi (downstream-rakendusi).
Hindamine hõlmab kolme tüüpilist järelülesannet: teksti genereerimist, kujutiste ennustamist ja kehastatud tegevuste genereerimist. Orca ületab seejuures võrreldava suurusega spetsialiseeritud võrdlusmudeleid. Tulemused viitavad sellele, et tugevam maailma varjatud representatsioon toob otseselt kaasa tugevamad järelrakenduste tulemused. Sellega positsioneerib Orca end paljutõotava lähenemisena aluspõhimudelipõhisele maailma mõistmisele, mis näitab ühtse paradigma skaleeritavust.
Allikas: arxiv.org · Avaldatud 28. juuni 2026
Lumi AI News — tehisintellekti abiga kurateeritud vastavalt tehisintellektimääruse artiklile 50. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.2 abil.