Nuo „Žvaigždžių karų“ iki „Laimingų pėdų“ daugelyje mėgstamų filmų yra scenų, kurios buvo įmanomos naudojant judesio fiksavimo technologiją, kuri vaizdo įrašu įrašo objektų ar žmonių judėjimą. Be to, šio stebėjimo programos, apimančios sudėtingą fizikos, geometrijos ir suvokimo sąveiką, apima ne tik Holivudą, bet ir kariuomenę, sporto mokymą, medicinos sritis, kompiuterinį regėjimą ir robotiką, todėl inžinieriai gali suprasti ir imituoti veiksmus, vykstančius realiame pasaulyje. aplinka.
Kadangi tai gali būti sudėtingas ir brangus procesas – dažnai ant objektų ar žmonių reikia uždėti žymeklius ir įrašyti veiksmų seką, mokslininkai stengiasi perkelti naštą neuroniniams tinklams, o tai gali gauti šiuos duomenis iš paprasto vaizdo įrašo ir atkurti juos modelyje. Darbas su fizikos modeliavimu ir atvaizdavimo laidomis žada, kad tai bus plačiau naudojama, nes jis gali apibūdinti tikrovišką, nenutrūkstamą, dinamišką vaizdų judesį ir paversti pirmyn ir atgal tarp 2D atvaizdavimo ir 3D scenos pasaulyje. Tačiau norint tai padaryti, naudojant dabartinius metodus reikia tiksliai žinoti aplinkos sąlygas, kuriose vyksta veiksmas, ir pasirinkti atvaizduotoją, kurie abu dažnai nepasiekiami.
Dabar komanda MIT ir IBM mokslininkai sukūrė apmokytą neuroninio tinklo vamzdyną, kuris išvengia šios problemos, leidžia daryti išvadą apie aplinkos būklę ir vykstančius veiksmus, dominančio objekto ar asmens (sistemos) fizines savybes ir jo valdymą. parametrus. Išbandyta technika gali pranokti kitus metodus, modeliuojant keturias fizines standžiųjų ir deformuojamų kūnų sistemas, kurios iliustruoja skirtingus dinamikos ir sąveikos tipus įvairiomis aplinkos sąlygomis. Be to, metodika leidžia imituoti mokymąsi – nuspėti ir atkurti realaus pasaulio skrendančio kvadrotoriaus trajektoriją iš vaizdo įrašo.
„Šiame straipsnyje nagrinėjama aukšto lygio tyrimo problema yra tai, kaip atkurti skaitmeninį dvynį iš dinaminės sistemos vaizdo įrašo“, – sako Tao Du PhD „21, Elektros inžinerijos ir informatikos katedros (EECS) doktorantas, Kompiuterių mokslų ir dirbtinių technologijų skyriaus narys. Intelligence Laboratory (CSAIL) ir tyrimų grupės narys. Kad tai padarytume, Du sako: „Turime nekreipti dėmesio į vaizdo klipų atvaizdavimo skirtumus ir pabandyti suvokti pagrindinę informaciją apie dinaminę sistemą arba dinaminį judesį.“
Du bendraautoriai yra pagrindinis autorius Pingchuan Ma, EECS absolventas ir CSAIL narys; Joshas Tenenbaumas, Paulo E. Newtono Smegenų ir pažinimo mokslų katedros kognityvinių mokslų ir skaičiavimo profesorius bei CSAIL narys; Wojciechas Matusik, elektros inžinerijos ir informatikos profesorius bei CSAIL narys; ir MIT-IBM Watson AI Lab pagrindinis tyrimo darbuotojas Chuang Ganas. Šis darbas buvo pristatytas šią savaitę Tarptautinėje mokymosi reprezentacijų konferencijoje.
Nors filmuojant personažus, robotus ar dinamines sistemas, kad būtų galima daryti išvadą apie dinaminį judėjimą, ši informacija tampa lengviau prieinama, ji taip pat suteikia naujų iššūkis. „Vaizdai ar vaizdo įrašai [ir kaip jie pateikiami] labai priklauso nuo apšvietimo sąlygų, nuo fono informacijos, nuo tekstūros informacijos, nuo jūsų aplinkos medžiagos, ir tai nebūtinai gali būti išmatuojama realiame pasaulyje. scenarijus“, – sako Du. Be šios atvaizdavimo konfigūracijos informacijos arba nežinant, kuris atvaizdavimo įrankis naudojamas, šiuo metu sunku surinkti dinaminę informaciją ir numatyti vaizdo įrašo subjekto elgesį. Net jei atvaizduotojas yra žinomas, dabartiniai neuroninio tinklo metodai vis tiek reikalauja didelių mokymo duomenų rinkinių. Tačiau taikant naują požiūrį, tai gali tapti ginčytinu klausimu. „Jei nufilmuosite leopardo bėgimą ryte ir vakare, žinoma, gausite vizualiai skirtingus vaizdo klipus, nes apšvietimo sąlygos yra gana skirtingos. Tačiau jums tikrai rūpi dinaminis judesys: leopardo jungties kampai – ne tuo atveju, jei jie atrodo šviesūs ar tamsūs“, – sako Du.
Siekiant atsižvelgti į atvaizdavimo sritis ir vaizdo skirtumus Išspręsdamas problemą, komanda sukūrė dujotiekio sistemą, kurioje yra neuroninis tinklas, pavadintas „Invariant invariant State-Prediction (RISP)“ tinklu. RISP paverčia vaizdų (pikselių) skirtumus į sistemos būsenų skirtumus, ty veiksmo aplinką, todėl jų metodas yra apibendrinamas ir agnostiškas atvaizdavimo konfigūracijoms. RISP yra apmokytas naudojant atsitiktinius atvaizdavimo parametrus ir būsenas, kurie įvedami į diferencijuojamą atvaizdavimo priemonę, kuri matuoja pikselių jautrumą atvaizdavimo konfigūracijų, pvz., apšvietimo ar medžiagų spalvų, atžvilgiu. Tai sukuria įvairių vaizdų ir vaizdo įrašų rinkinį iš žinomų pagrindinio tiesos parametrų, kurie vėliau leis RISP pakeisti šį procesą, numatant aplinkos būseną iš įvesties vaizdo įrašo. Komanda papildomai sumažino RISP atvaizdavimo gradientus, kad jos prognozės būtų mažiau jautrios atvaizdavimo konfigūracijų pokyčiams, todėl ji išmoko pamiršti vizualinį vaizdą ir sutelkti dėmesį į dinaminių būsenų mokymąsi. Tai įmanoma naudojant diferencijuojamą atvaizdavimo priemonę.
Tada metodas naudoja du panašius konvejerius, veikiančius lygiagrečiai. Vienas skirtas šaltinio domenui su žinomais kintamaisiais. Čia sistemos parametrai ir veiksmai įvedami į diferencijuojamą modeliavimą. Sukurtos modeliavimo būsenos derinamos su skirtingomis atvaizdavimo konfigūracijomis į diferencijuojamą atvaizdavimo įrenginį, kad būtų generuojami vaizdai, kurie įvedami į RISP. Tada RISP pateikia prognozes apie aplinkos būklę. Tuo pačiu metu vykdomas panašus tikslinio domeno vamzdynas su nežinomais kintamaisiais. RISP šiame vamzdyne tiekiamas šie išvesties vaizdai, generuojant numatomą būseną. Palyginus prognozuojamas būsenas iš šaltinio ir tikslinių domenų, susidaro naujas nuostolis; šis skirtumas naudojamas kai kuriems šaltinio domeno konvejerio parametrams koreguoti ir optimizuoti. Tada šis procesas gali būti kartojamas, dar labiau sumažinant nuostolius tarp dujotiekių.
Siekdama nustatyti metodo sėkmę, komanda išbandė jį keturiose modeliuotose sistemose: kvadrotoriuje (skraidančiame standžiajame). kūnas, neturintis jokio fizinio kontakto), kubas (tvirtas kūnas, sąveikaujantis su aplinka, kaip kauliukas), šarnyrinė ranka ir strypas (deformuojamas kūnas, galintis judėti kaip gyvatė). Užduotys apėmė sistemos būsenos įvertinimą pagal vaizdą, sistemos parametrų ir veiksmo valdymo signalų nustatymą iš vaizdo įrašo bei valdymo signalų, nukreipiančių sistemą į norimą būseną, atradimą iš tikslinio vaizdo. Be to, jie sukūrė bazines linijas ir orakulą, lygindami naują RISP procesą šiose sistemose su panašiais metodais, kurie, pavyzdžiui, neturi perteikimo gradiento praradimo, netreniruoja neuroninio tinklo su jokiais nuostoliais arba visai neturi RISP neuroninio tinklo. Komanda taip pat ištyrė, kaip gradiento praradimas paveikė būsenos prognozavimo modelio veikimą laikui bėgant. Galiausiai mokslininkai panaudojo savo RISP sistemą, kad iš vaizdo įrašo padarytų išvadą apie realaus kvadratoriaus, kurio dinamika yra sudėtinga, judėjimą. Jie palygino našumą su kitais metodais, kuriems trūko praradimo funkcijos ir buvo naudojami pikselių skirtumai, arba su tokia technika, kuri apėmė rankinį atvaizduotojo konfigūracijos derinimą.
Beveik visuose eksperimentuose RISP procedūra buvo efektyvesnė. panašius arba naujausius turimus metodus, imituojančius arba atkuriančius norimus parametrus arba judesį ir įrodančius, kad jie yra efektyvūs ir apibendrinami konkurentai dabartiniams judesio fiksavimo metodams.
Šiam darbui tyrėjai padarė dvi svarbias prielaidas: kad informacija apie kamerą yra žinoma, pavyzdžiui, jos padėtis ir nustatymai, taip pat geometrija ir fizika, valdanti stebimą objektą ar asmenį. Ateityje planuojama tai spręsti.
„Manau, kad didžiausia problema, kurią čia sprendžiame, yra vienos srities informacijos atkūrimas į kitą, be labai brangios įrangos“, – sako Ma. Toks požiūris turėtų būti „naudingas [programoms, tokioms kaip] metaversa, kurios tikslas rekonstruoti fizinį pasaulį virtualioje aplinkoje“, – priduria Gan. „Iš esmės tai yra kasdienis, prieinamas sprendimas, tvarkingas ir paprastas, kad būtų galima peržengti sritis. rekonstrukcija arba atvirkštinės dinamikos problema“, – sako Ma.
Šį tyrimą iš dalies palaikė MIT-IBM Watson AI Lab, Nexplore, DARPA Machine Common Sense programa, Office of Naval Tyrimai (ONR), ONR MURI ir Mitsubishi Electric.

