Įsivaizduokite, kad sėdite ant parko suoliuko ir žiūrite, kaip kažkas vaikšto. Nors scena gali nuolat keistis žmogui vaikštant, žmogaus smegenys gali paversti tą dinamišką vaizdinę informaciją į stabilesnį vaizdą laikui bėgant. Šis gebėjimas, žinomas kaip suvokimo tiesinimas, padeda mums numatyti vaikščiojančio žmogaus trajektoriją.
Skirtingai nuo žmonių, kompiuterinio matymo modeliai paprastai neturi suvokimo tiesumo, todėl jie išmoksta vaizduoti vaizdinę informaciją labai nenuspėjamu būdu. Tačiau jei mašininio mokymosi modeliai turėtų šią galimybę, jie galėtų geriau įvertinti, kaip objektai ar žmonės judės.
MIT mokslininkai išsiaiškino, kad specifinis mokymo metodas gali padėti kompiuterinio regėjimo modeliams išmokti suvokti tiesesnius vaizdus, kaip tai daro žmonės. Mokymas apima milijonų pavyzdžių demonstravimą mašininio mokymosi modeliui, kad jis galėtų išmokti užduotį.
Tyrėjai nustatė, kad kompiuterinio regėjimo modelių mokymas naudojant techniką, vadinamą priešpriešiniu mokymu, dėl kurios jie mažiau reaguoja į mažas klaidas, pridėtas prie vaizdų, pagerina modelių suvokimo tiesumą.
Komanda taip pat išsiaiškino, kad suvokimo tiesumą veikia užduotis, kurią reikia išmokyti atlikti modelį. Modeliai, išmokyti atlikti abstrakčias užduotis, pvz., klasifikuoti vaizdus, išmoksta suvokti tiesesnius vaizdus nei tie, kurie išmokyti atlikti smulkesnes užduotis, pavyzdžiui, priskirti kiekvieną vaizdo pikselį kategorijai.
Pavyzdžiui, modelio mazgai turi vidinius aktyvavimus, vaizduojančius „šuo“, kurie leidžia modeliui aptikti šunį, kai jis mato bet kokį šuns vaizdą. Suvokiamai tiesūs vaizdai išlaiko stabilesnį „šuo“ vaizdą, kai vaizde yra nedideli pokyčiai. Tai daro juos tvirtesnius.
Įgydami geresnį supratimą apie kompiuterinio regėjimo suvokimo tiesumą, mokslininkai tikisi atskleisti įžvalgas, kurios galėtų padėti jiems sukurti modelius, leidžiančius tiksliau prognozuoti. Pavyzdžiui, ši savybė gali pagerinti autonominių transporto priemonių, naudojančių kompiuterinius matymo modelius pėsčiųjų, dviratininkų ir kitų transporto priemonių trajektorijas, saugą.
„Vienas iš čia pateikiamų žinučių yra tai, kad įkvėpimas iš biologinių sistemų, pvz., žmogaus regėjimo, gali padėti suprasti, kodėl tam tikri dalykai veikia taip, kaip veikia, ir įkvėpti idėjų, kaip pagerinti neuroninius tinklus“, – sako Vasha DuTell. , MIT postdoc ir bendraautorius straipsnio, kuriame nagrinėjamas kompiuterinio regėjimo suvokimo tiesumas.
Prie „DuTell“ prisijungė pagrindinė autorė Anne Harrington, Elektros inžinerijos ir kompiuterių mokslo (EECS) katedros magistrantė; Ayush Tewari, postdoc; Markas Hamiltonas, magistrantas; Simonas Stentas, „Woven Planet“ tyrimų vadovas; Ruth Rosenholtz, Smegenų ir pažinimo mokslų katedros vyriausioji mokslininkė ir Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) narė; ir vyresnysis autorius Williamas T. Freemanas, Thomas ir Gerd Perkins, elektros inžinerijos ir kompiuterių mokslo profesorius bei CSAIL narys. Tyrimas pristatomas tarptautinėje mokymosi reprezentacijų konferencijoje.
Studijuoja tiesinimą
Perskaitę 2019 m. Niujorko universiteto mokslininkų grupės straipsnį apie žmonių suvokimo tiesumą, DuTell, Harrington ir jų kolegos susimąstė, ar ši savybė gali būti naudinga ir kompiuterinio matymo modeliuose.
Jie nusprendė nustatyti, ar skirtingų tipų kompiuterinės regos modeliai ištiesina išmoktas vizualines vaizdines. Kiekvienam modeliui jie pateikė vaizdo įrašo kadrus ir išnagrinėjo vaizdavimą įvairiais mokymosi proceso etapais.
Jei modelio vaizdas nuspėjamai keičiasi vaizdo įrašo kadruose, modelis ištiesinamas. Galų gale jo išvesties vaizdas turėtų būti stabilesnis nei įvesties vaizdas.
„Atvaizdavimą galite įsivaizduoti kaip liniją, kuri prasideda tikrai kreivi. Ištiesinantis modelis gali paimti tą vingiuotą liniją iš vaizdo įrašo ir ištiesinti ją apdorojimo etapais“, – aiškina DuTell.
Dauguma jų išbandytų modelių nebuvo ištiesinti. Iš nedaugelio, kurie tai padarė, tie, kurie atsitiesė efektyviausiai, buvo apmokyti atlikti klasifikavimo užduotis, naudojant techniką, žinomą kaip priešiškas mokymas.
Priešpriešinis mokymas apima subtilų vaizdų modifikavimą, šiek tiek pakeičiant kiekvieną pikselį. Nors žmogus nepastebėtų skirtumo, šie nedideli pakeitimai gali suklaidinti mašiną, todėl ji neteisingai klasifikuoja vaizdą. Dėl priešpriešinio mokymo modelis tampa tvirtesnis, todėl jo neapgaus šios manipuliacijos.
Kadangi priešpriešinis mokymas moko modelį mažiau reaguoti į nedidelius vaizdų pokyčius, tai padeda išmokti vaizdą, kuris laikui bėgant yra labiau nuspėjamas, aiškina Harringtonas.
„Žmonėms jau kilo mintis, kad priešpriešinis mokymas gali padėti jums padaryti modelį panašesnį į žmogų, ir buvo įdomu pamatyti, kad tai perkeliama į kitą savybę, kurios žmonės anksčiau nebuvo išbandę“, – sako ji.
Tačiau tyrėjai išsiaiškino, kad priešingai apmokyti modeliai išmoksta ištiesinti tik tada, kai yra išmokyti atlikti plačias užduotis, pavyzdžiui, suskirstyti visus vaizdus į kategorijas. Modeliai, kuriems buvo pavesta segmentuoti – kiekvieną vaizdo pikselį pažymėti kaip tam tikrą klasę – neišsitiesė net ir tada, kai jie buvo mokomi priešiškai.
Nuosekli klasifikacija
Tyrėjai išbandė šiuos vaizdų klasifikavimo modelius rodydami jiems vaizdo įrašus. Jie nustatė, kad modeliai, kurie išmoko suvokti tiesesnes reprezentacijas, buvo linkę nuosekliau teisingai klasifikuoti objektus vaizdo įrašuose.
„Man nuostabu, kad šie priešpriešingai apmokyti modeliai, kurie niekada net nematė vaizdo įrašo ir niekada nebuvo mokomi pagal laikinus duomenis, vis dar rodo tam tikrą tiesinimą“, – sako DuTell.
Tyrėjai tiksliai nežino, kaip priešpriešinio mokymo procesas leidžia ištiesinti kompiuterinio regėjimo modelį, tačiau jų rezultatai rodo, kad stipresnės mokymo schemos priverčia modelius labiau ištiesinti, aiškina ji.
Remdamiesi šiuo darbu, mokslininkai nori panaudoti tai, ką išmoko, kurdami naujas mokymo schemas, kurios aiškiai suteiktų šios savybės modelį. Jie taip pat nori labiau įsigilinti į priešpriešinį mokymą, kad suprastų, kodėl šis procesas padeda modeliui ištiesinti.
„Biologiniu požiūriu priešiškas mokymas nebūtinai yra prasmingas. Ne taip žmonės supranta pasaulį. Vis dar kyla daug klausimų, kodėl atrodo, kad šis mokymo procesas padeda modeliams veikti labiau kaip žmonėms“, – sako Harringtonas.
„Giliųjų neuronų tinklų išmoktų reprezentacijų supratimas yra labai svarbus norint pagerinti tokias savybes kaip tvirtumas ir apibendrinimas“, – sako Billas Lotteris, Dana-Farber vėžio instituto ir Harvardo medicinos mokyklos docentas, kuris nedalyvavo šiame tyrime. „Haringtonas ir kt. atlikti išsamų įvertinimą, kaip laikui bėgant keičiasi kompiuterinių regėjimo modelių atvaizdai apdorojant natūralius vaizdo įrašus, parodydami, kad šių trajektorijų kreivumas labai skiriasi priklausomai nuo modelio architektūros, mokymo savybių ir užduoties. Šios išvados gali padėti kurti patobulintus modelius ir taip pat pasiūlyti įžvalgų apie biologinį vizualinį apdorojimą.
„Straipsnyje patvirtinama, kad natūralių vaizdo įrašų tiesinimas yra gana unikali žmogaus regėjimo sistemos savybė. Jį rodo tik priešpriešiškai apmokyti tinklai, o tai suteikia įdomų ryšį su kitu žmogaus suvokimo požymiu: jo atsparumu įvairioms vaizdų transformacijoms, tiek natūralioms, tiek dirbtinėms“, – sako Olivier Hénaffas, DeepMind mokslininkas, nedalyvavęs šiame tyrime. „Kad net ir priešiškai apmokyti scenų segmentavimo modeliai neištaiso savo įnašų, kyla svarbių klausimų būsimam darbui: ar žmonės natūralias scenas analizuoja taip pat, kaip kompiuterinio matymo modeliai? Kaip pavaizduoti ir numatyti judančių objektų trajektorijas, išlaikant jautrumą jų erdvinėms detalėms? Sujungdamas tiesinimo hipotezę su kitais vizualinio elgesio aspektais, šis dokumentas sudaro pagrindą vieningesnėms suvokimo teorijoms.
Tyrimą iš dalies finansuoja Toyota tyrimų institutas, MIT CSAIL METEOR stipendija, Nacionalinis mokslo fondas, JAV oro pajėgų tyrimų laboratorija ir JAV oro pajėgų dirbtinio intelekto greitintuvas.

