Žiūrėdami į nuotraukas ir remdamiesi savo ankstesne patirtimi, žmonės dažnai gali suvokti gylį nuotraukose, kurios pačios savaime yra visiškai plokščios. Tačiau priversti kompiuterius padaryti tą patį pasirodė gana sudėtinga.
Problema sudėtinga dėl kelių priežasčių, viena iš jų – neišvengiamai prarandama informacija, kai trimatė scena sumažinama iki dvimačio (2D) atvaizdo. Yra keletas nusistovėjusių strategijų, kaip iš kelių 2D vaizdų atkurti 3D informaciją, tačiau kiekviena iš jų turi tam tikrų apribojimų. Naujas metodas, vadinamas „virtualiuoju atitikimu”, kurį sukūrė MIT ir kitų institucijų mokslininkai, gali apeiti kai kuriuos iš šių trūkumų ir sėkmingai veikti tais atvejais, kai įprastinė metodika suklumpa
Esami metodai, kuriais 3D scenos atkuriamos iš 2D vaizdų, remiasi vaizdais, kuriuose yra tam tikrų vienodų požymių. Virtualus atitikimas – tai 3D rekonstrukcijos metodas, kuris veikia net su vaizdais, gautais iš labai skirtingų vaizdų, kuriuose nėra tų pačių požymių.
Standartinis metodas, vadinamas „struktūra iš judesio”, modeliuojamas pagal pagrindinį žmogaus regos aspektą. Kadangi mūsų akys yra atskirtos viena nuo kitos, kiekviena iš jų siūlo šiek tiek skirtingus objekto vaizdus. Galima sudaryti trikampį, kurio kraštines sudaro abi akis jungianti tiesės atkarpa ir tiesės atkarpos, jungiančios kiekvieną akį su bendru nagrinėjamo objekto tašku. Žinant trikampio kampus ir atstumą tarp akių, galima nustatyti atstumą iki to taško naudojantis elementaria geometrija – nors žmogaus regos sistema, žinoma, gali apytiksliai įvertinti atstumą neatlikdama sudėtingų trigonometrinių skaičiavimų. Tą pačią pagrindinę idėją – trianguliacijos arba paralakso vaizdus – šimtmečius naudojo astronomai, norėdami apskaičiuoti atstumą iki tolimų žvaigždžių.
Trianguliacija yra pagrindinis judesio struktūros elementas. Tarkime, kad turite dvi objekto, pavyzdžiui, triušio figūros, nuotraukas, kurių viena padaryta iš kairės figūros pusės, o kita – iš dešinės. Pirmiausia reikėtų rasti triušio paviršiaus taškus arba pikselius, kurie yra bendri abiem nuotraukoms. Tada tyrėjas galėtų nustatyti abiejų fotoaparatų „pozas” – pozicijas, iš kurių buvo padarytos nuotraukos, ir kryptį, į kurią buvo nukreiptas kiekvienas fotoaparatas. Žinant atstumą tarp fotoaparatų ir jų orientaciją, būtų galima trianguliacija nustatyti atstumą iki pasirinkto triušio taško. O jei būtų nustatyta pakankamai bendrų taškų, būtų galima gauti išsamų objekto (arba „triušio”) bendros formos vaizdą.
Šiuo metodu padaryta didelė pažanga, – komentuoja Wei-Chiu Ma, MIT Elektros inžinerijos ir kompiuterių mokslo departamento (EECS) doktorantas, – ir dabar žmonės vis tiksliau sutapatina pikselius. Kol galime stebėti tą patį tašką ar taškus skirtinguose vaizduose, galime naudoti esamus algoritmus santykinei padėčiai tarp kamerų nustatyti.” Tačiau šis metodas veikia tik tada, kai du vaizdai labai sutampa. Jis priduria, kad jei įvesties vaizdai yra labai skirtingų požiūrių, taigi juose yra nedaug bendrų taškų, jei iš viso jų yra, „sistema gali nepavykti.”
Vasarą 2020 Ma sugalvojo naują būdą, kuris galėtų gerokai išplėsti struktūros iš judesio aprėptį. Tuo metu MIT buvo uždarytas dėl pandemijos, o Ma buvo namie Taivane ir ilsėjosi ant sofos. Žiūrėdamas į savo delną ir ypač į pirštų galiukus, jis pastebėjo, kad aiškiai įsivaizduoja savo nagus, nors jų ir nemato
Tai įkvėpė virtualaus susirašinėjimo sąvoką, kurią Ma vėliau plėtojo kartu su savo patarėju Antonio Torralba, EECS profesoriumi ir Kompiuterių mokslo ir dirbtinio intelekto laboratorijos tyrėju, kartu su Anqi Joyce Yang ir Raquel Urtasun iš Toronto universiteto bei Shenlong Wang iš Ilinojaus universiteto. ma sako: „Į esamus 3D algoritmus norime įtraukti žmogaus žinias ir samprotavimus.”
Struktūra iš judesio veikia, kai du vaizdai turi bendrų taškų, nes tai reiškia, kad visada galima nubrėžti trikampį, jungiantį kameras į bendrą tašką, ir taip išgauti informaciją apie gylį. Virtualus atitikimas suteikia galimybę eiti toliau. Tarkime, kad viena nuotrauka padaryta iš kairės triušio pusės, o kita – iš dešinės. Pirmoje nuotraukoje gali būti matoma dėmė ant triušio kairės kojos. Bet kadangi šviesa sklinda tiesia linija, galima pasinaudoti bendromis žiniomis apie triušio anatomiją ir sužinoti, kur šviesos spindulys, einantis iš fotoaparato į koją, atsiras kitoje triušio pusėje. Tas taškas gali būti matomas kitame vaizde (padarytame iš dešiniojo šono) ir, jei taip, jį galima panaudoti trianguliacijos būdu apskaičiuojant atstumus trečiajame matmenyje.
Kitaip tariant, virtualus atitikmuo leidžia paimti tašką iš pirmojo vaizdo ant kairiojo triušio šono ir sujungti jį su tašku ant nematomo dešiniojo triušio šono. „Privalumas tas, kad norint tęsti darbą, nereikia sutampančių vaizdų”, – pažymi Ma. „Žiūrint per objektą ir išeinant iš kito galo, šis metodas suteikia bendrų taškų, su kuriais galima dirbti ir kurių iš pradžių nebuvo.” Tokiu būdu galima apeiti įprastiniam metodui taikomus apribojimus.
Galima klausti, kiek išankstinių žinių reikia, kad tai veiktų, nes jei nuo pat pradžių reikėtų žinoti viso atvaizdo formą, nereikėtų jokių skaičiavimų. Ma ir jo kolegos taiko triuką, kai tam tikri gerai pažįstami objektai vaizde, pavyzdžiui, žmogaus figūra, naudojami kaip tam tikras „inkaras”, ir jie sukūrė metodus, kaip panaudoti mūsų žinias apie žmogaus figūrą, kad padėtų nustatyti kameros pozas ir kai kuriais atvejais nustatyti vaizdo gylį. Be to, aiškina Ma, „išankstinės žinios ir sveikas protas, kuris yra integruotas į mūsų algoritmus, pirmiausia yra užfiksuojamas ir užkoduojamas neuroniniais tinklais.”
Galutinis komandos tikslas yra kur kas ambicingesnis, sako Ma. „Norime sukurti kompiuterius, kurie galėtų suprasti trimatį pasaulį taip, kaip žmonės.” Jis pripažįsta, kad šis tikslas dar toli nuo įgyvendinimo. „Tačiau norint peržengti dabartinę ribą ir sukurti sistemą, kuri veiktų kaip žmonės, mums reikia sudėtingesnės aplinkos. Kitaip tariant, turime sukurti kompiuterius, kurie galėtų ne tik interpretuoti nejudančius vaizdus, bet ir suprasti trumpus vaizdo klipus, o galiausiai ir pilnametražius filmus.”
Filmo „Gerasis Vilas Hantingas” (Good Will Hunting) scena parodo, ką jis turi omenyje. Žiūrovai mato Mattą Damoną ir Robiną Williamsą iš nugaros, sėdinčius ant suoliuko, iš kurio atsiveria vaizdas į tvenkinį Bostono viešajame sode. Kitame kadre, nufilmuotame iš priešingos pusės, Damonas ir Williamsas matomi iš priekio (nors ir visiškai apsirengę) ir visiškai kitame fone. Visi, žiūrintys filmą, iškart supranta, kad žiūri į tuos pačius du žmones, nors abu kadrai neturi nieko bendra. Kompiuteriai dar negali atlikti tokio koncepcinio šuolio, tačiau Ma ir jo kolegos deda daug pastangų, kad šios mašinos taptų vis labiau įgudusios ir – bent jau kalbant apie regėjimą – panašesnės į mus.
Komandos darbas bus pristatytas kitą savaitę vyksiančioje konferencijoje „Computer Vision and Pattern Recognition”