Žiūrėdami į nuotraukas ir remdamiesi savo praeities patirtimi, žmonės dažnai gali suvokti nuotraukose, kurios pačios yra visiškai plokščios, gylį. Tačiau priversti kompiuterius daryti tą patį pasirodė gana sudėtinga.
Problema sudėtinga dėl kelių priežasčių, viena iš jų yra ta, kad informacija neišvengiamai prarandama, kai scena, kuri vyksta trimis matmenimis, sumažinama iki dvimatis (2D) vaizdas. Yra keletas nusistovėjusių 3D informacijos atkūrimo iš kelių 2D vaizdų strategijų, tačiau kiekviena iš jų turi tam tikrų apribojimų. Naujas metodas, vadinamas „virtualia korespondencija“, kurį sukūrė MIT ir kitų institucijų mokslininkai, gali pašalinti kai kuriuos iš šių trūkumų ir būti sėkmingas tais atvejais, kai įprastinė metodika šlubuoja.
Esami metodai, atkuriantys 3D scenas iš 2D vaizdų, pagrįsti vaizdais, kuriuose yra tų pačių funkcijų. Virtualus susirašinėjimas – tai 3D rekonstrukcijos metodas, kuris veikia net ir su vaizdais, darytais iš itin skirtingų vaizdų, kuriuose nėra tų pačių savybių.
Standartinis metodas, vadinamas „judesio struktūra“, sukurtas remiantis pagrindiniu žmogaus regėjimo aspektu. Kadangi mūsų akys yra atskirtos viena nuo kitos, kiekviena iš jų siūlo šiek tiek skirtingą objekto vaizdą. Galima suformuoti trikampį, kurio kraštines sudaro linijos atkarpa, jungianti dvi akis, ir linijos atkarpos, jungiančios kiekvieną akį su bendru atitinkamo objekto tašku. Žinant trikampio kampus ir atstumą tarp akių, atstumą iki to taško galima nustatyti naudojant elementarią geometriją – nors, žinoma, žmogaus regėjimo sistema gali priimti apytikslius sprendimus apie atstumą neatlikus sudėtingų trigonometrinių skaičiavimų. Tą pačią pagrindinę idėją – trianguliacijos arba paralakso vaizdų – astronomai naudojo šimtmečius, norėdami apskaičiuoti atstumą iki tolimų žvaigždžių.
Trianguliacija yra pagrindinis judėjimo struktūros elementas. Tarkime, kad turite dvi objekto nuotraukas – pavyzdžiui, triušio figūrą – vieną nufotografuotą iš kairės figūros pusės, o kitą iš dešinės. Pirmas žingsnis būtų rasti triušio paviršiaus taškus arba pikselius, kuriuos abu vaizdai turi bendrų. Tyrėjas iš ten gali nustatyti dviejų kamerų „pozas“ – padėtis, iš kurios buvo darytos nuotraukos, ir kryptį, į kurią buvo atsukta kiekviena kamera. Žinant atstumą tarp kamerų ir jų orientavimo būdą, galima būtų atlikti trianguliaciją ir apskaičiuoti atstumą iki pasirinkto triušio taško. Ir jei bus nustatyta pakankamai bendrų taškų, gali būti įmanoma gauti išsamų objekto (arba „triušio“) bendros formos pojūtį.
Taikant šią techniką padaryta didelė pažanga, komentuoja Wei- Chiu Ma, MIT Elektros inžinerijos ir informatikos katedros (EECS) doktorantas, „ir žmonės dabar suderina pikselius vis tiksliau. Tol, kol galime stebėti tą patį tašką ar taškus skirtinguose vaizduose, galime naudoti esamus algoritmus, kad nustatytų santykines kameras. Tačiau šis metodas veikia tik tuo atveju, jei du vaizdai labai sutampa. Jei įvesties vaizdai turi labai skirtingus požiūrius (taigi juose yra nedaug bendrų taškų, jei tokių yra), jis priduria: „sistema gali sugesti“.
Vasarą 2020, Ma sugalvojo naują būdą daryti dalykus, kurie galėtų labai išplėsti judesio struktūros pasiekiamumą. MIT tuo metu buvo uždarytas dėl pandemijos, o Ma buvo namuose Taivane ir ilsėjosi ant sofos. Žiūrint į delną ir ypač į pirštų galiukus, jam pasirodė, kad jis aiškiai mato savo nagus, nors jų ir nematė.
Tai buvo įkvėpimas virtualaus susirašinėjimo samprata, kurios vėliau Ma siekė su savo patarėju Antonio Torralba, EECS profesoriumi ir tyrėju iš Kompiuterių mokslo ir dirbtinio intelekto laboratorijos, kartu su Anqi Joyce Yang ir Raquel Urtasun iš Toronto universiteto bei Shenlong Wang iš universiteto. iš Ilinojaus. „Mes norime įtraukti žmogaus žinias ir samprotavimus į savo esamus 3D algoritmus“, – sako Ma, tą patį samprotavimą, kuris leido jam pažvelgti į savo pirštų galiukus ir išryškinti nagus kitoje pusėje – toje pusėje, kurios jis negalėjo matyti.
Struktūra iš judesio veikia, kai du vaizdai turi bendrų taškų, nes tai reiškia, kad visada galima nubrėžti trikampį, jungiantį kameras su bendru tašku, ir taip iš jo galima gauti gylio informaciją. Virtuali korespondencija suteikia galimybę perduoti dalykus toliau. Dar kartą tarkime, kad viena nuotrauka daryta iš kairės triušio pusės, o kita – iš dešinės. Pirmoji nuotrauka gali atskleisti dėmę ant triušio kairės kojos. Tačiau kadangi šviesa sklinda tiesia linija, būtų galima panaudoti bendrąsias triušio anatomijos žinias, kad sužinotumėte, kur iš kameros į koją sklinda šviesos spindulys kitoje triušio pusėje. Tas taškas gali būti matomas kitame vaizde (paimtame iš dešinės pusės) ir, jei taip, jis gali būti naudojamas trianguliacijos būdu skaičiuojant atstumus trečiajame matmenyje.
Virtuali korespondencija, kitaip tariant, leidžia paimti tašką iš pirmojo vaizdo kairiajame triušio šone ir sujungti jį su tašku, esančiu nematomame triušio dešiniajame šone. „Privalumas yra tas, kad norint tęsti nereikia persidengiančių vaizdų“, – pažymi Ma. „Žiūrint per objektą ir išėjus iš kito galo, ši technika suteikia bendrų darbo taškų, kurių iš pradžių nebuvo. Ir tokiu būdu galima apeiti įprastiniam metodui taikomus suvaržymus.
Galima pasiteirauti, kiek reikia išankstinių žinių, kad tai veiktų, nes jei reikėtų žinoti nuo pat pradžių viskas nuotraukoje, nereikėtų jokių skaičiavimų. Triukas, kurį naudoja Ma ir jo kolegos, yra naudoti tam tikrus pažįstamus objektus vaizde, pavyzdžiui, žmogaus pavidalą, kad jie būtų tam tikras „inkaras“, ir jie sukūrė metodus, kaip panaudoti mūsų žinias apie žmogaus formą. užfiksuoti fotoaparato pozas ir, kai kuriais atvejais, nustatyti vaizdo gylį. Be to, Ma aiškina, „ankstines žinias ir sveiką protą, įmontuotą į mūsų algoritmus, pirmiausia užfiksuoja ir užkoduoja neuroniniai tinklai“.
Galutinis komandos tikslas yra daug ambicingesnis, sako Ma. „Norime sukurti kompiuterius, kurie galėtų suprasti trimatį pasaulį taip, kaip tai daro žmonės. Jis pripažįsta, kad šis tikslas dar toli iki įgyvendinimo. „Tačiau norint pasiekti daugiau nei dabar, ir sukurti sistemą, kuri veiktų kaip žmonės, mums reikia sudėtingesnės aplinkos. Kitaip tariant, turime sukurti kompiuterius, kurie galėtų ne tik interpretuoti nejudančius vaizdus, bet ir suprasti trumpus vaizdo klipus, o galiausiai ir pilnametražius filmus.“
Scena filme „Gerasis Vilas Hantingas“ parodo, ką turi omenyje. Žiūrovai mato Mattą Damoną ir Robiną Williamsą iš nugaros, sėdinčius ant suoliuko, iš kurio atsiveria vaizdas į tvenkinį Bostono viešajame sode. Kitas kadras, darytas iš priešingos pusės, siūlo priekinį (nors ir visiškai apsirengusį) Damono ir Williamso vaizdą su visiškai skirtingu fonu. Kiekvienas žiūrintis filmą iš karto žino, kad žiūri tuos pačius du žmones, nors abu kadrai neturi nieko bendro. Kompiuteriai kol kas negali padaryti šio konceptualaus šuolio, bet Ma ir jo kolegos sunkiai dirba, kad šios mašinos būtų pažangesnės ir – bent jau kalbant apie viziją – panašesnės į mus.
Komandos darbas bus pristatytas kitą savaitę Kompiuterinės vizijos ir modelių atpažinimo konferencijoje.

