Nuo „Žvaigždžių karų” iki „Linksmų pėdučių” – daugelyje mėgstamų filmų yra scenų, kurios buvo sukurtos pasitelkus judesio fiksavimo technologiją, kuri vaizdo įrašuose fiksuoja objektų ar žmonių judėjimą. Be to, šis stebėjimas, apimantis sudėtingą fizikos, geometrijos ir suvokimo sąveiką, taikomas ne tik Holivude, bet ir kariuomenėje, sporto treniruotėse, medicinos srityje, kompiuterinės regos ir robotikos srityse, todėl inžinieriai gali suprasti ir imituoti realioje aplinkoje vykstančius veiksmus.
Kadangi tai gali būti sudėtingas ir brangus procesas – dažnai reikia ant objektų ar žmonių pritvirtinti žymeklius ir įrašyti veiksmo seką – mokslininkai stengiasi šią naštą perkelti neuroniniams tinklams, kurie galėtų gauti šiuos duomenis iš paprasto vaizdo įrašo ir atkurti juos modelyje. Darbai fizikinio modeliavimo ir atvaizdavimo srityje teikia vilčių, kad šis metodas bus plačiau naudojamas, nes jis gali apibūdinti tikrovišką, nenutrūkstamą, dinamišką judesį iš vaizdų ir transformuotis pirmyn ir atgal tarp 2D atvaizdavimo ir 3D scenos pasaulyje. Tačiau tam dabartiniai metodai reikalauja tikslių žinių apie aplinkos, kurioje vyksta veiksmas, sąlygas ir atvaizdavimo priemonės pasirinkimą, o abi šios žinios dažnai neprieinamos
Dabar MIT ir IBM tyrėjų komanda sukūrė apmokytą neuroninių tinklų vamzdyną, kuris leidžia išvengti šios problemos, turėdamas galimybę daryti išvadas apie aplinkos būklę ir vykstančius veiksmus, dominančio objekto ar asmens (sistemos) fizines charakteristikas ir jo valdymo parametrus. Išbandžius šį metodą, jis gali pranokti kitus metodus modeliuojant keturias fizines standžių ir deformuojamų kūnų sistemas, iliustruojančias skirtingo tipo dinamiką ir sąveiką, esant įvairioms aplinkos sąlygoms. Be to, taikant šią metodiką galima mokytis imitacijos – iš vaizdo įrašo numatyti ir atkurti realiame pasaulyje skrendančio kvadrotoriaus trajektoriją.
„Šiame darbe nagrinėjama aukšto lygio mokslinių tyrimų problema – kaip iš dinaminės sistemos vaizdo įrašo atkurti skaitmeninį dvynį”, – sako Elektros inžinerijos ir informatikos katedros (EECS) doktorantas, Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) narys Tao Du PhD „21, kuris yra mokslinių tyrimų grupės narys. Du sako, kad norint tai padaryti, „mums reikia nekreipti dėmesio į vaizdo klipų atvaizdavimo skirtumus ir bandyti suvokti pagrindinę informaciją apie dinaminę sistemą arba dinaminį judėjimą.”
Du bendraautoriai yra pagrindinis autorius Pingchuan Ma, EECS magistrantas ir CSAIL narys; Josh Tenenbaum, Paul E. Newtonas, smegenų ir kognityvinių mokslų katedros kognityvinių mokslų ir skaičiavimo karjeros profesorius ir CSAIL narys; Wojciechas Matusikas, elektros inžinerijos ir kompiuterių mokslo profesorius ir CSAIL narys; ir MIT-IBM Watson AI laboratorijos vyriausiasis mokslo darbuotojas Chuangas Ganas (Chuang Gan). Šis darbas šią savaitę pristatytas Tarptautinėje mokymosi reprezentacijų konferencijoje
Nors filmuojant veikėjų, robotų ar dinaminių sistemų vaizdo įrašus, kad būtų galima daryti išvadas apie dinaminius judesius, ši informacija tampa prieinamesnė, tai taip pat kelia naujų iššūkių. „Vaizdai ar vaizdo įrašai [ir jų atvaizdavimas] labai priklauso nuo apšvietimo sąlygų, foninės informacijos, tekstūros informacijos, aplinkos medžiaginės informacijos, o jas nebūtinai galima išmatuoti realaus pasaulio scenarijuje, – sako Du. Neturint šios atvaizdavimo konfigūracijos informacijos arba žinių apie tai, kokia atvaizdavimo priemonė naudojama, šiuo metu sunku surinkti dinaminę informaciją ir numatyti vaizdo įrašo objekto elgesį. Net jei vaizduoklio atvaizdavimo priemonė yra žinoma, dabartiniams neuroninių tinklų metodams vis tiek reikia didelių mokymo duomenų rinkinių. Tačiau taikant naująjį jų metodą tai gali tapti nebereikalinga. „Jei ryte ir vakare nufilmuosite bėgančio leopardo vaizdo įrašą, žinoma, gausite vizualiai skirtingus vaizdo įrašus, nes apšvietimo sąlygos yra visiškai skirtingos. Tačiau jums iš tikrųjų rūpi dinaminis judesys: leopardo sąnarių kampai, o ne tai, ar jie atrodo šviesūs, ar tamsūs”, – sako Du.
Siekdama pašalinti atvaizdavimo sričių ir vaizdo skirtumus, komanda sukūrė vamzdynų sistemą, kurioje yra neuroninis tinklas, pavadintas „atvaizdavimo invariantinės būsenos prognozavimo (RISP)” tinklu. RISP transformuoja vaizdų (pikselių) skirtumus į sistemos būsenų, t. y. veiksmų aplinkos, skirtumus, todėl jų metodas yra apibendrinamas ir nepriklauso nuo atvaizdavimo konfigūracijų. RISP apmokytas naudojant atsitiktinius atvaizdavimo parametrus ir būsenas, kurie patenka į diferencijuojamąjį atvaizdavimo įrenginį, t. y. atvaizdavimo įrenginį, kuris matuoja pikselių jautrumą atvaizdavimo konfigūracijų, pvz. Taip pagal žinomus pagrindinius parametrus sukuriamas įvairių vaizdų ir vaizdo įrašų rinkinys, kuris vėliau leis RISP šį procesą pakeisti, numatant aplinkos būseną iš įvesties vaizdo įrašo. Komanda papildomai sumažino RISP atvaizdavimo gradientus, kad jo prognozės būtų mažiau jautrios atvaizdavimo konfigūracijų pokyčiams, todėl jis gali išmokti pamiršti vizualinę išvaizdą ir sutelkti dėmesį į dinaminių būsenų mokymąsi. Tai tapo įmanoma dėl diferencijuojamo atvaizdavimo įtaiso
Tada metodas naudoja du panašius lygiagrečiai veikiančius vamzdynus. Vienas jų skirtas šaltinio sričiai su žinomais kintamaisiais. Čia sistemos parametrai ir veiksmai įvedami į diferencijuojamąjį modeliavimą. Sukurto modeliavimo būsenos derinamos su skirtingomis atvaizdavimo konfigūracijomis diferencijuojamoje atvaizdavimo programoje, kad būtų sukurti vaizdai, kurie perduodami į RISP. Tada RISP pateikia aplinkos būsenų prognozes. Tuo pat metu paleidžiamas panašus tikslinės srities vamzdynas su nežinomais kintamaisiais. Šiame vamzdyne į RISP paduodami šie išvesties vaizdai, generuojantys prognozuojamą būseną. Palyginus šaltinio ir tikslinės srities prognozuojamas būsenas, gaunamas naujas nuostolis; šis skirtumas naudojamas kai kuriems šaltinio srities vamzdyno parametrams koreguoti ir optimizuoti. Vėliau šį procesą galima kartoti, dar labiau mažinant nuostolius tarp vamzdynų
Siekdama nustatyti savo metodo sėkmę, komanda jį išbandė keturiose imituojamose sistemose: kvadrotoriuje (skraidantis standus kūnas, neturintis jokio fizinio kontakto), kube (standus kūnas, sąveikaujantis su aplinka, kaip kauliukas), šarnyruotoje rankoje ir strype (deformuojamas kūnas, galintis judėti kaip gyvatė). Užduotys apėmė sistemos būsenos įvertinimą iš vaizdo, sistemos parametrų ir veiksmų valdymo signalų nustatymą iš vaizdo įrašo ir valdymo signalų, nukreipiančių sistemą į norimą būseną, atradimą iš tikslinio vaizdo. Be to, jie sukūrė bazines sistemas ir orakulą, palygindami šiose sistemose taikomą naująjį RISP procesą su panašiais metodais, kuriuose, pavyzdžiui, nėra atvaizdavimo gradiento nuostolių, neuroninis tinklas nėra apmokytas su jokiais nuostoliais arba apskritai nėra RISP neuroninio tinklo. Komanda taip pat nagrinėjo, kaip gradiento nuostoliai paveikė būsenos prognozavimo modelio veikimą laikui bėgant. Galiausiai tyrėjai panaudojo savo RISP sistemą, kad iš vaizdo įrašo išvestų realaus keturračio, pasižyminčio sudėtinga dinamika, judėjimą. Jie palygino našumą su kitais metodais, kurie neturėjo nuostolių funkcijos ir naudojo pikselių skirtumus, arba su metodais, kuriuose reikėjo rankiniu būdu derinti vaizduoklio konfigūraciją.
Beveik visuose eksperimentuose RISP procedūra pranoko panašius arba naujausius turimus metodus, imituodama arba atkurdama pageidaujamus parametrus ar judesį ir įrodydama, kad yra duomenų požiūriu efektyvi ir apibendrinanti dabartinių judesio fiksavimo metodų konkurentė.
Šiame darbe tyrėjai padarė dvi svarbias prielaidas: kad yra žinoma informacija apie kamerą, pavyzdžiui, jos padėtis ir nustatymai, taip pat stebimo objekto ar asmens geometrija ir fizika.
„Manau, kad didžiausia problema, kurią mes čia sprendžiame, yra vienos srities informacijos atkūrimas kitoje srityje, nenaudojant labai brangios įrangos”, – sako Ma. Toks metodas turėtų būti „naudingas [tokioms taikomosioms programoms kaip] metaverslas, kuriuo siekiama atkurti fizinį pasaulį virtualioje aplinkoje”, priduria Gan. „Iš esmės tai yra kasdienis, prieinamas, tvarkingas ir paprastas kryžminės srities rekonstrukcijos arba atvirkštinės dinamikos problemos sprendimas”, – sako Ma.
Šį tyrimą iš dalies rėmė MIT-IBM Watson AI Lab, Nexplore, DARPA Machine Common Sense programa, Karinio jūrų laivyno tyrimų biuras (ONR), ONR MURI ir Mitsubishi Electric.