Nuo fotoaparatų iki savarankiškai važiuojančių automobilių – daugelis šiuolaikinių technologijų priklauso nuo dirbtinio intelekto, kad iš vaizdinės informacijos išgautų prasmę. Šiuolaikinės AI technologijos esmė yra dirbtiniai neuroniniai tinklai, ir dažniausiai galime pasitikėti šiomis AI kompiuterinio regėjimo sistemomis, kad viskas būtų matoma taip, kaip mes matome, tačiau kartais jos šlubuoja. Pasak MIT ir IBM tyrimų mokslininkų, vienas iš būdų pagerinti kompiuterinį regėjimą yra nurodyti dirbtinius neuroninius tinklus, kuriais jie remiasi, kad jie sąmoningai imituotų tai, kaip smegenų biologinis neuroninis tinklas apdoroja vaizdinius vaizdus.
Tyrėjai, vadovaujami MIT profesoriaus Jameso DiCarlo, MIT Quest for Intelligence direktoriaus ir MIT-IBM Watson AI laboratorijos nario, padarė kompiuterinio matymo modelį tvirtesnį, išmokydami jį veikti kaip smegenų dalis, kaip žmonės ir kiti primatai. pasikliauti objekto atpažinimu. Šių metų gegužę Tarptautinėje mokymosi reprezentacijų konferencijoje komanda pranešė, kad kai jie apmokė dirbtinį neuronų tinklą, naudojant neuroninės veiklos modelius smegenų apatinėje laikinojoje (IT) žievėje, dirbtinis neuroninis tinklas galėjo patikimiau atpažinti objektus vaizduose nei modelis, kuriam trūko to nervinio mokymo. Ir modelio vaizdų interpretacijos labiau atitiko tai, ką matė žmonės, net jei vaizduose buvo nedidelių iškraipymų, kurie apsunkino užduotį.
Neuroninių grandinių palyginimas
Daugelis dirbtinių neuroninių tinklų, naudojamų kompiuteriniam regėjimui, jau primena daugiasluoksnes smegenų grandines, kurios apdoroja žmonių ir kitų primatų vaizdinę informaciją. Kaip ir smegenys, jie naudoja į neuronus panašius vienetus, kurie kartu apdoroja informaciją. Kai jie yra apmokyti atlikti konkrečią užduotį, šie sluoksniuotieji komponentai kolektyviai ir palaipsniui apdoroja vaizdinę informaciją, kad užbaigtų užduotį – pavyzdžiui, nustato, kad paveikslėlyje pavaizduotas lokys, automobilis ar medis.
DiCarlo ir kiti anksčiau nustatė, kad kai tokios giliai besimokančios kompiuterinės regos sistemos sukuria veiksmingus būdus, kaip išspręsti regėjimo problemas, jos baigiasi dirbtinėmis grandinėmis, kurios veikia panašiai kaip neuroninės grandinės, apdorojančios vaizdinę informaciją mūsų pačių smegenyse. Tai reiškia, kad jie yra stebėtinai geri moksliniai neuroninių mechanizmų modeliai, kuriais grindžiamas primatų ir žmogaus regėjimas.
Šis panašumas padeda neurologams gilinti savo smegenų supratimą. Parodydami būdus, kaip galima apdoroti vaizdinę informaciją, kad būtų galima suprasti vaizdus, kompiuteriniai modeliai siūlo hipotezes apie tai, kaip smegenys gali atlikti tą pačią užduotį. Kūrėjams ir toliau tobulinant kompiuterinio regėjimo modelius, neurologai rado naujų idėjų, kurias reikia tyrinėti savo darbe.
„Kadangi regėjimo sistemos geriau veikia realiame pasaulyje, kai kurios iš jų vidiniame apdorojime yra panašesnės į žmogų. Tai naudinga supratimo ir biologijos požiūriu“, – sako DiCarlo, kuris taip pat yra smegenų ir pažinimo mokslų profesorius bei McGovern smegenų tyrimų instituto tyrėjas.
Sukurti labiau į smegenis panašų AI
Nors jų potencialas yra daug žadantis, kompiuterinės regos sistemos dar nėra tobuli žmogaus regėjimo modeliai. DiCarlo įtarė, kad vienas iš būdų pagerinti kompiuterinį regėjimą gali būti konkrečių į smegenis panašių funkcijų įtraukimas į šiuos modelius.
Siekdamas išbandyti šią idėją, jis ir jo bendradarbiai sukūrė kompiuterinio regėjimo modelį, naudodamas neuroninius duomenis, anksčiau surinktus iš regėjimą apdorojančių neuronų beždžionių IT žievėje, kuri yra pagrindinė primatų ventralinio regėjimo kelio dalis, susijusi su objektų atpažinimu, o gyvūnai žiūrėjo. įvairių vaizdų. Tiksliau, Joel Dapello, Harvardo universiteto absolventas ir buvęs MIT-IBM Watson AI Lab praktikantas; ir Kohitij Kar, Jorko universiteto docentas ir Kanados tyrimų katedra (vizualinė neuromokslas) bei kviestinis MIT mokslininkas; bendradarbiaujant su David Cox, IBM tyrimų viceprezidentu dirbtinio intelekto modeliams ir IBM MIT-IBM Watson AI Lab direktoriumi; ir kiti IBM tyrimų ir MIT tyrėjai paprašė dirbtinio neuroninio tinklo imituoti šių primatų regėjimą apdorojančių neuronų elgesį, o tinklas išmoko identifikuoti objektus atliekant standartinę kompiuterinio regėjimo užduotį.
„Tiesą sakant, mes pasakėme tinklui: „Prašome išspręsti šią standartinę kompiuterinio regėjimo užduotį, bet taip pat padarykite, kad vieno iš jūsų viduje imituojamų „nervinių“ sluoksnių funkcija būtų kuo panašesnė į atitinkamo biologinio nervinio sluoksnio funkciją. “, – aiškina DiCarlo. „Mes paprašėme, kad ji padarytų abu tuos dalykus kuo geriau.” Tai privertė dirbtines neuronines grandines rasti kitokį vizualinės informacijos apdorojimo būdą nei standartinis kompiuterinio matymo metodas, sako jis.
Išmokusi dirbtinį modelį su biologiniais duomenimis, DiCarlo komanda palygino savo veiklą su panašaus dydžio neuroninio tinklo modeliu, apmokytu be neuroninių duomenų, naudodama standartinį kompiuterinio matymo metodą. Jie nustatė, kad naujasis, biologiškai informuotas modelio IT sluoksnis, kaip nurodyta, geriau atitiko IT neuroninius duomenis. Tai reiškia, kad kiekvienam išbandytam vaizdui dirbtinių IT neuronų populiacija modelyje reagavo panašiau į atitinkamą biologinių IT neuronų populiaciją.
Tyrėjai taip pat nustatė, kad modelis IT taip pat geriau atitiko IT neuroninius duomenis, surinktus iš kitos beždžionės, nors modelis niekada nematė duomenų iš to gyvūno ir net tada, kai šis palyginimas buvo įvertintas pagal tos beždžionės IT reakciją į naujus vaizdus. Tai parodė, kad komandos naujasis, „neuroniškai suderintas“ kompiuterinis modelis gali būti patobulintas primatų IT žievės neurobiologinės funkcijos modelis – įdomus atradimas, atsižvelgiant į tai, kad anksčiau nebuvo žinoma, ar neuroninių duomenų, kuriuos šiuo metu galima surinkti primatų regėjimo sistema gali tiesiogiai vadovauti modelio kūrimui.
Turėdama naują kompiuterinį modelį, komanda paklausė, ar „IT neuronų derinimo“ procedūra taip pat lemia kokių nors bendro modelio elgesio pokyčių. Tiesą sakant, jie nustatė, kad neuroniniu požiūriu suderinto modelio elgesys buvo panašesnis į žmogų – jam dažniausiai pavykdavo teisingai suskirstyti objektus į kategorijas vaizduose, kuriuose taip pat sekasi žmonėms, ir dažniausiai žlugo, kai nepavyksta ir žmonėms.
Priešingi išpuoliai
Komanda taip pat nustatė, kad neuroniškai suderintas modelis buvo atsparesnis „priešingoms atakoms“, kurias kūrėjai naudoja kompiuteriniam regėjimui ir AI sistemoms išbandyti. Kompiuteriniame regėjime priešpriešinės atakos įveda nedidelius vaizdų iškraipymus, kuriais siekiama suklaidinti dirbtinį neuroninį tinklą.
„Pasakykite, kad turite atvaizdą, kurį modelis identifikuoja kaip katę. Kadangi turite žinių apie modelio vidinį veikimą, tuomet galite sukurti labai nedidelius vaizdo pakeitimus, kad modelis staiga manytų, kad tai nebėra katė“, – aiškina DiCarlo.
Šie nedideli iškraipymai paprastai neapgauna žmonių, tačiau kompiuteriniai regėjimo modeliai susiduria su šiais pokyčiais. Asmuo, kuris žiūri į subtiliai iškreiptą katę, vis tiek patikimai ir tvirtai praneša, kad tai katė. Tačiau standartiniai kompiuterinio matymo modeliai dažniau painioja katę su šunimi ar net medžiu.
„Turi būti tam tikrų vidinių skirtumų, kaip mūsų smegenys apdoroja vaizdus, todėl mūsų regėjimas tampa atsparesnis tokio pobūdžio išpuoliams“, – sako DiCarlo. Ir iš tiesų, komanda išsiaiškino, kad kai jie padarė savo modelį labiau suderintą nervų atžvilgiu, jis tapo tvirtesnis ir teisingai identifikavo daugiau vaizdų priešpriešinių išpuolių akivaizdoje. Modelį vis tiek gali suklaidinti stipresni „išpuoliai“, bet taip gali ir žmonės, sako DiCarlo. Jo komanda dabar tiria žmonių priešiškumo tvirtumo ribas.
Prieš kelerius metus DiCarlo komanda išsiaiškino, kad jie taip pat galėtų pagerinti modelio atsparumą priešiškiems išpuoliams suprojektuodami pirmąjį dirbtinio tinklo sluoksnį, kuris imituotų ankstyvą vizualinio apdorojimo sluoksnį smegenyse. Kitas svarbus žingsnis yra derinti tokius metodus – sukurti naujus modelius, kurie vienu metu neuroniškai suderinami keliuose vaizdo apdorojimo sluoksniuose.
Naujasis darbas yra dar vienas įrodymas, kad keitimasis idėjomis tarp neurologijos ir kompiuterių mokslo gali paskatinti pažangą abiejose srityse. „Kiekvienas ką nors gauna iš jaudinančio veiksmingo ciklo tarp natūralaus/biologinio intelekto ir dirbtinio intelekto“, – sako DiCarlo. „Šiuo atveju kompiuterinės regos ir AI tyrėjai gauna naujų būdų, kaip pasiekti tvirtumą, o neurologai ir kognityviniai mokslininkai gauna tikslesnius mechaninius žmogaus regėjimo modelius.”
Šį darbą palaikė MIT-IBM Watson AI Lab, Semiconductor Research Corporation, JAV gynybos tyrimų projektų agentūra, MIT Shoemaker Fellowship, JAV karinio jūrų laivyno tyrimų biuras, Simonso fondas ir Kanados tyrimų katedros programa.

