Įsivaizduokite, kad slenkate per nuotraukas telefone ir matote vaizdą, kurio iš pradžių negalite atpažinti. Atrodo, kad ant sofos kažkas neaišku; ar tai gali būti pagalvė ar paltas? Po kelių sekundžių jis spragteli – žinoma! Tas pūkų kamuolys yra tavo draugo katė Mocha. Nors kai kurias jūsų nuotraukas buvo galima suprasti akimirksniu, kodėl ši katės nuotrauka buvo daug sunkesnė?
MIT Kompiuterių mokslų ir dirbtinio intelekto laboratorijos (CSAIL) mokslininkai nustebo pastebėję, kad nepaisant itin svarbios vizualinių duomenų supratimo svarbiausiose srityse, pradedant sveikatos priežiūra ir baigiant transportavimu, baigiant buitiniais prietaisais, suvokimas apie vaizdo atpažinimo sunkumus žmonėms buvo beveik visiškai pagrįstas. ignoruojamas. Vienas iš pagrindinių giluminiu mokymusi pagrįsto AI pažangą skatinančių veiksnių buvo duomenų rinkiniai, tačiau mažai žinome apie tai, kaip duomenys skatina didelio masto giluminio mokymosi pažangą.
Realiose programose, kurioms reikia suprasti vaizdinius duomenis, žmonės pranoksta objektų atpažinimo modelius, nepaisant to, kad modeliai gerai veikia dabartiniuose duomenų rinkiniuose, įskaitant tuos, kurie yra aiškiai sukurti mašinoms, turinčioms neobjektyvų vaizdą arba paskirstymo poslinkius. Ši problema iš dalies išlieka, nes neturime gairių dėl absoliutaus vaizdo ar duomenų rinkinio sudėtingumo. Nekontroliuojant vertinimui naudojamų vaizdų sudėtingumo, sunku objektyviai įvertinti pažangą siekiant žmogaus lygio veiklos, aprėpti žmogaus gebėjimus ir padidinti duomenų rinkinio keliamą iššūkį.
Norėdami užpildyti šią žinių spragą, Davidas Mayo, MIT elektros inžinerijos ir informatikos doktorantas ir CSAIL filialas, gilinosi į gilų vaizdų duomenų rinkinių pasaulį, tyrinėdamas, kodėl tam tikrus vaizdus žmonėms ir mašinoms atpažinti sunkiau nei kitus. „Kai kuriuos vaizdus atpažinti iš prigimties užtrunka ilgiau, todėl labai svarbu suprasti smegenų veiklą šio proceso metu ir jos ryšį su mašininio mokymosi modeliais. Galbūt dabartiniuose modeliuose trūksta sudėtingų nervinių grandinių arba unikalių mechanizmų, kurie matomi tik išbandant sudėtingą vizualinį vaizdą. Šis tyrimas yra labai svarbus norint suprasti ir tobulinti mašininio regėjimo modelius“, – sako Mayo, pagrindinis naujo darbo apie darbą autorius.
Dėl to buvo sukurta nauja metrika – „minimalus žiūrėjimo laikas“ (MVT), kuris kiekybiškai įvertina atvaizdo atpažinimo sunkumus, atsižvelgiant į tai, kiek laiko žmogui reikia jį žiūrėti, kad būtų galima teisingai identifikuoti. Naudodama „ImageNet“, populiaraus mašininio mokymosi duomenų rinkinio, ir „ObjectNet“, duomenų rinkinio, skirto objektų atpažinimo patikimumui patikrinti, poaibį, komanda dalyviams rodė vaizdus įvairiai trukmei nuo 17 milisekundžių iki 10 sekundžių ir paprašė jų. pasirinkti tinkamą objektą iš 50 parinkčių rinkinio. Atlikusi daugiau nei 200 000 vaizdų pateikimo bandymų, komanda nustatė, kad esami bandymų rinkiniai, įskaitant „ObjectNet“, buvo iškreipti link lengvesnių, trumpesnių MVT vaizdų, o didžioji dalis etaloninio našumo buvo gaunami iš vaizdų, kurie yra paprasti žmonėms.
Projektas nustatė įdomias modelio veikimo tendencijas, ypač susijusias su mastelio keitimu. Didesni modeliai gerokai patobulino paprastesnius vaizdus, tačiau padarė mažiau pažangą kuriant sudėtingesnius vaizdus. CLIP modeliai, kuriuose yra ir kalba, ir vizija, išsiskyrė judant labiau į žmogų panašaus atpažinimo link.
„Tradiciškai objektų atpažinimo duomenų rinkiniai buvo nukreipti į ne tokius sudėtingus vaizdus, tai praktika, dėl kurios padidėjo modelio našumo metrika, iš tikrųjų neatspindi modelio tvirtumo ar jo gebėjimo atlikti sudėtingas vizualines užduotis. Mūsų tyrimai atskleidė, kad sunkesni vaizdai kelia rimtesnį iššūkį, sukelia pasiskirstymo pokytį, į kurį dažnai neatsižvelgiama atliekant standartinius vertinimus“, – sako Mayo. „Išleidome vaizdų rinkinius, pažymėtus sunkumais, kartu su įrankiais, leidžiančiais automatiškai apskaičiuoti MVT, todėl MVT galima pridėti prie esamų etalonų ir išplėsti įvairioms programoms. Tai apima bandymo sudėtingumo matavimą prieš diegiant realias sistemas, neuroninių vaizdo sudėtingumo koreliacijų atradimą ir objektų atpažinimo metodų tobulinimą, siekiant panaikinti atotrūkį tarp etalono ir realaus našumo.
„Vienas didžiausių mano pastebėjimų yra tai, kad dabar turime kitą dimensiją, pagal kurią galime įvertinti modelius. Norime modelių, kurie galėtų atpažinti bet kokį vaizdą, net jei – galbūt ypač jei – žmogui sunku atpažinti. Mes pirmieji, kiekybiškai įvertinę, ką tai reikš. Mūsų rezultatai rodo, kad ne tik taip nėra šiuolaikinėje technikoje, bet ir tai, kad mūsų dabartiniai vertinimo metodai negali mums pasakyti, kada taip yra, nes standartiniai duomenų rinkiniai yra taip iškreipti link lengvų vaizdų. sako Jesse Cummings, MIT elektros inžinerijos ir informatikos mokslų absolventas ir pirmasis autorius kartu su Mayo.
Nuo ObjectNet iki MVT
Prieš kelerius metus šio projekto komanda nustatė didelį iššūkį mašininio mokymosi srityje: modeliai kovojo su neplatinamais vaizdais arba vaizdais, kurie nebuvo tinkamai pateikti mokymo duomenyse. Įveskite „ObjectNet“ – duomenų rinkinį, kurį sudaro vaizdai, surinkti iš realaus gyvenimo nustatymų. Duomenų rinkinys padėjo išsiaiškinti našumo atotrūkį tarp mašininio mokymosi modelių ir žmogaus atpažinimo gebėjimų, pašalindamas netikrus ryšius, esančius kituose etalonuose, pavyzdžiui, tarp objekto ir jo fono. „ObjectNet“ išryškino atotrūkį tarp mašininio matymo modelių našumo duomenų rinkiniuose ir realaus pasaulio taikomosiose programose, paskatindamas daugelį tyrėjų ir kūrėjų naudoti, o tai vėliau pagerino modelio našumą.
Greitai pasukame į dabartį, o komanda žengė žingsnį į priekį su MVT. Skirtingai nuo tradicinių metodų, kuriuose pagrindinis dėmesys skiriamas absoliučiam našumui, šis naujas požiūris įvertina modelių veikimą, kontrastuodamas jų atsakymus į lengviausius ir sunkiausius vaizdus. Tyrimas toliau nagrinėjo, kaip būtų galima paaiškinti vaizdo sunkumą ir patikrinti, ar jis panašus į žmogaus vizualinį apdorojimą. Naudodama tokias metrikas kaip c balas, numatymo gylis ir priešiškumo tvirtumas, komanda nustatė, kad sunkesnius vaizdus tinklai apdoroja skirtingai. „Nors yra pastebimų tendencijų, pavyzdžiui, lengvesni vaizdai yra labiau prototipiniai, išsamus semantinis vaizdo sunkumo paaiškinimas ir toliau nepastebi mokslo bendruomenės“, – sako Mayo.
Pavyzdžiui, sveikatos priežiūros srityje vizualinio sudėtingumo supratimo tinkamumas tampa dar ryškesnis. AI modelių gebėjimas interpretuoti medicininius vaizdus, pvz., Rentgeno spindulius, priklauso nuo vaizdų įvairovės ir sudėtingumo. Tyrėjai pasisako už kruopščią sudėtingumo pasiskirstymo analizę, pritaikytą profesionalams, užtikrinant, kad dirbtinio intelekto sistemos būtų vertinamos remiantis ekspertų standartais, o ne specialistų interpretacijomis.
Mayo ir Cummingsas šiuo metu taip pat tiria neurologinius vizualinio atpažinimo pagrindus, tiria, ar smegenys pasižymi skirtingu aktyvumu apdorojant lengvus ir sudėtingus vaizdus. Tyrimu siekiama išsiaiškinti, ar sudėtingi vaizdai įdarbina papildomų smegenų sričių, kurios paprastai nėra susijusios su vizualiniu apdorojimu, ir, tikimės, padės išsiaiškinti, kaip mūsų smegenys tiksliai ir efektyviai iššifruoja vaizdinį pasaulį.
Žmogaus lygio veiklos link
Žvelgdami į ateitį, mokslininkai ne tik tiria būdus, kaip pagerinti AI nuspėjamąsias galimybes, susijusias su vaizdo sunkumais. Komanda stengiasi nustatyti sąsajas su žiūrėjimo laiko sunkumais, kad sukurtų sudėtingesnes arba lengvesnes vaizdų versijas.
Nepaisant reikšmingų tyrimo žingsnių, mokslininkai pripažįsta apribojimus, ypač kalbant apie objekto atpažinimo atskyrimą nuo vizualinės paieškos užduočių. Dabartinė metodika daugiausia dėmesio skiria objektų atpažinimui, nepaisant sudėtingumo, kurį sukelia netvarkingi vaizdai.
„Šis visapusis požiūris sprendžia ilgalaikį iššūkį objektyviai įvertinti pažangą siekiant žmogaus lygio objektų atpažinimo srityje ir atveria naujas galimybes suprasti ir tobulinti sritį“, – sako Mayo. „Galima pritaikyti minimalaus žiūrėjimo laiko sudėtingumo metriką įvairioms vaizdinėms užduotims atlikti, todėl šis darbas atveria kelią patikimesniam, į žmogų panašiam objektų atpažinimo našumui, užtikrinant, kad modeliai būtų tikrai išbandyti ir paruošti realaus pasaulio vizualinio supratimo sudėtingumas.
„Tai yra įspūdingas tyrimas, kaip žmogaus suvokimas gali būti naudojamas nustatant AI regėjimo modelių tipinių lyginamųjų standartų trūkumus, kurie pervertina DI našumą, sutelkdami dėmesį į lengvus vaizdus“, – sako Alanas L. Yuille’as, Bloombergo pažinimo mokslų profesorius ir Alanas L. Yuille’as. Kompiuterių mokslas Johnso Hopkinso universitete, kuris nedalyvavo šiame straipsnyje. „Tai padės sukurti realistiškesnius etalonus, leidžiančius ne tik tobulinti AI, bet ir teisingiau palyginti AI ir žmogaus suvokimą.
„Plačiai teigiama, kad kompiuterinės regos sistemos dabar pranoksta žmones, o kai kuriuose etaloniniuose duomenų rinkiniuose tai tiesa“, – sako Anthropic techninio personalo narys Simonas Kornblithas, doktorantas ’17, kuris taip pat nedalyvavo šiame darbe. „Tačiau daug sunkumų šiuose etalonuose kyla dėl to, kad vaizdai yra neaiškūs; paprastas žmogus tiesiog nežino pakankamai, kad galėtų klasifikuoti skirtingas šunų veisles. Šiame darbe daugiausia dėmesio skiriama vaizdams, kuriuos žmonės gali gauti teisingus tik gavę pakankamai laiko. Šie vaizdai paprastai yra daug sunkesni kompiuterinėms regėjimo sistemoms, tačiau geriausios sistemos yra tik šiek tiek prastesnės nei žmonės.
Mayo, Cummings ir Xinyu Lin MEng ’22 parašė straipsnį kartu su CSAIL tyrimų mokslininku Andrejumi Barbu, CSAIL pagrindiniu tyrėju Borisu Katzu ir MIT-IBM Watson AI laboratorijos vyriausiuoju tyrėju Danu Gutfreundu. Tyrėjai yra MIT smegenų, protų ir mašinų centro filialai.
Komanda pristato savo darbus 2023 m. Neurinių informacijos apdorojimo sistemų (NeurIPS) konferencijoje.