Orca ühendab video, keele ja visuaalsed küsimused ühtsesse varjatud ruumi ning näitab, et selline ühtne maailmamudel võib teksti-, pildi- ja tegevusennustuses ületada spetsialiseeritud mudeleid.
Orca õpib videote ja keeleliste annotatsioonide põhjal ühtse maailmarepresentatsiooni, mis võimaldab teksti genereerimist, kujutiste ennustamist ning agentide juhtimist külmutatud tugimudeli ja modulaarsete dekoodrite abil.