Kreditas: Browno universitetas Kodėl dirbtinio intelekto sistemos gali pranokti žmones atliekant kai kurias vizualines užduotis, pvz., veido atpažinimą, bet padaryti didelių klaidų kitose, pavyzdžiui, priskiriant astronauto atvaizdą kastuvui?
Kaip ir žmogaus smegenys, AI sistemos remiasi vaizdų apdorojimo ir klasifikavimo strategijomis. Ir, kaip ir žmogaus smegenys, mažai žinoma apie tikslų šių procesų pobūdį. Browno universiteto Carney smegenų mokslo instituto mokslininkai daro pažangą, kad suprastų abi sistemas, paskelbdami naujausią dokumentą, kuris padeda paaiškinti kompiuterinį regėjimą taip, kaip mokslininkai teigia, kad jis yra prieinamas ir naudingesnis nei ankstesni modeliai.
„Tiek žmogaus smegenys, tiek gilieji neuroniniai tinklai, valdantys dirbtinio intelekto sistemas, vadinami juodosiomis dėžėmis, nes tiksliai nežinome, kas vyksta viduje“, – sakė Brownas, kognityvinių, kalbinių ir psichologinių mokslų bei informatikos profesorius Thomas Serre’as. . „Darbas, kurį atliekame Carney’s Computational Brain Science centre, siekia suprasti ir apibūdinti smegenų mechanizmus, susijusius su mokymusi, regėjimu ir įvairiais dalykais, ir pabrėžti panašumus ir skirtumus su AI sistemomis.
Gilūs neuroniniai tinklai naudoja mokymosi algoritmus vaizdams apdoroti, sakė Serre. Jie mokomi naudotis didžiuliais duomenų rinkiniais, pvz., „ImageNet“, kuriame yra daugiau nei milijonas vaizdų, surinktų iš interneto į tūkstančius objektų kategorijų. Jis paaiškino, kad mokymai daugiausia apima duomenų tiekimą į AI sistemą.
„Mes nesakome dirbtinio intelekto sistemoms, kaip apdoroti vaizdus, pavyzdžiui, kokią informaciją reikia išgauti iš vaizdų, kad būtų galima juos klasifikuoti“, – sakė Serre’as. „AI sistema atranda savo strategiją. Tada kompiuterių mokslininkai įvertina tai, ką jie daro po to, kai buvo apmokyti, pavyzdžiui, galbūt sistema pasiekia 90% tikslumą, atskirdama tūkstantį vaizdo kategorijų.”
Serre bendradarbiavo su Brown Ph.D. kandidatas Thomas Fel ir kiti kompiuterių mokslininkai sukūrė įrankį, leidžiantį vartotojams atidaryti giliųjų neuroninių tinklų juodosios dėžės dangtį ir nušviesti, kokias strategijas AI sistemos naudoja vaizdams apdoroti. Projektas, pavadintas CRAFT – Concept Recursive Activation FacTorization for Explainability – buvo bendras projektas su Dirbtinio ir natūralaus intelekto Tulūzos institutu, kuriame šiuo metu yra įsikūręs Fel. Jis buvo pristatytas šį mėnesį Vankuveryje, Kanadoje, IEEE/CVF konferencijoje dėl kompiuterinės vizijos ir modelių atpažinimo.
Serre’as pasidalijo, kaip CRAFT atskleidžia, kaip AI „mato“ vaizdus, ir paaiškino, kaip labai svarbu suprasti, kuo kompiuterinės regos sistema skiriasi nuo žmogaus.
Ką CRAFT rodo apie tai, kaip AI apdoroja vaizdus?
CRAFT pateikia sudėtingų ir didelės apimties vaizdinių objektų, išmoktų iš neuroninių tinklų, interpretaciją, pasitelkdama modernias mašininio mokymosi priemones, kad jos būtų suprantamesnes žmonėms. Tai veda prie pagrindinių vizualinių sąvokų, naudojamų neuroninių tinklų objektams klasifikuoti, vaizdavimo. Pavyzdžiui, pagalvokime apie gėlavandenių žuvų rūšį, vadinamą lynu. Sukūrėme svetainę, kurioje žmonės gali naršyti ir įsivaizduoti šias sąvokas. Naudojantis svetaine galima pastebėti, kad AI sistemos lynų koncepcija apima žuvų pelekų, galvų, uodegų, akių obuolių ir kt. rinkinius.
Šios sąvokos taip pat atskleidžia, kad gilieji tinklai kartais suvokia duomenų rinkinių paklaidas. Pavyzdžiui, viena iš sąvokų, susijusių su lynu, yra baltojo patino veidas, nes internete yra daug nuotraukų, kuriose sportuojantys žvejai laiko žuvis, kurios atrodo kaip lynai. (Tačiau sistema vis tiek gali atskirti žmogų nuo žuvies.) Kitame pavyzdyje vyraujanti koncepcija, susijusi su futbolo kamuoliu neuroniniuose tinkluose, yra futbolo žaidėjų buvimas aikštėje. Taip yra todėl, kad daugumoje interneto vaizdų, kuriuose pavaizduoti futbolo kamuoliai, taip pat yra pavienių žaidėjų, o ne tik pats kamuolys.
Kuo CRAFT metodas skiriasi nuo kitų kompiuterinės vizijos supratimo būdų?
Vienas iš būdų paaiškinti AI viziją yra vadinamieji priskyrimo metodai, kuriuose naudojami šilumos žemėlapiai, siekiant nustatyti įtakingiausius vaizdo regionus, turinčius įtakos DI sprendimams. Tačiau šie metodai daugiausia orientuoti į iškiliausias vaizdo sritis – atskleidžiant, „kur“ modelis atrodo, bet nepaaiškinant „ką“ modelis mato tose srityse.
Patobulinimas, palyginti su ankstesniais metodais, kuriuos Thomas Fel pristatė naudodamas CRAFT, yra ne tik nustatyti, kokias sąvokas sistema naudoja, kad sudarytų vaizdą arba ką modelis mato tose srityse, bet ir kaip sistema reitinguoja šias sąvokas. Lyno pavyzdyje žuvies liemuo atitinka 60% viso lyno sąvokos svorio. Taigi galime sužinoti, kiek svorio AI sistema skiria šioms subsąvokoms. Kitaip tariant, atvaizdą su lyno liemeniu labiau tikėtina priskirti prie žuvies, nei atvaizdą su baltu patinu priskirti prie žuvies.
Kaip CRAFT gali paaiškinti, kodėl AI regėjimo sistemos kartais daro keistų klaidų?
Savo darbe naudojame CRAFT, kad paaiškintume klasikinę AI klaidą: kaip astronauto atvaizdas buvo neteisingai klasifikuojamas kaip kastuvas, naudojant AI sistemą, apmokytą „ImageNet“. Štai kas atsitiko: klasikiniu priskyrimo metodu sukurta šilumos schema parodė, kad sistema kastuvo pavidalu žiūrėjo į vaizdo vidurį. CRAFT metodas išryškino dvi įtakingiausias koncepcijas, kurios lėmė sprendimą, kartu su atitinkamomis vietomis.
CRAFT pasiūlė, kad neuroninis tinklas priėmė sprendimą, nes jis nustatė „nešvarumų“, dažniausiai pasitaikančių „kastuvo“ įvaizdžio klasės atstovų, sąvoką ir sąvoką „slidinėjimo kelnės“, kurias paprastai dėvi žmonės, kastuvu valantys sniegą nuo važiuojamosios dalies. . Ji turėjo identifikuoti teisingą astronauto kelnių koncepciją, tačiau šis kelnių vaizdas tikriausiai niekada nebuvo matomas treniruočių metu, todėl sistema negalėjo užmegzti to ryšio.
Kodėl taip svarbu suprasti detales, kaip kompiuteris mato vaizdus?
Pirma, tai padeda pagerinti regėjimu pagrįstų įrankių, pvz., veido atpažinimo, tikslumą ir veikimą. Tai daro AI sistemas patikimesnes, nes galime suprasti jų naudojamą vizualinę strategiją. Tai taip pat padeda apsaugoti juos nuo kibernetinių atakų. Paimkite, pavyzdžiui, priešiškų išpuolių sąvoką. Faktas yra tai, kad galima atlikti nedidelius vaizdų pakeitimus, pvz., keisti pikselių intensyvumą žmonėms sunkiai suvokiamais būdais, tačiau to pakaks visiškai apgauti AI sistemą.
Viename itin svarbiame pavyzdyje tyrėjai parodė, kad tiesiog priklijuodami keletą tam tikro modelio lipdukų prie „Stop“ ženklo, jie gali apgauti savarankiškai vairuojančią transporto priemonę ir ją apdoroti kaip greičio ribojimo ženklą, kad jis pagreitintų, o ne lėtai. žemyn ir sustok. Tai sukurtų visišką chaosą. Taigi, kad galėtume apsisaugoti nuo jų, turime suprasti, kodėl ir kaip tokios atakos veikia prieš AI.
Ko AI regėjimo sistemos gali išmokyti mus apie žmogaus regėjimo sistemas?
Sužinojome, kad kažkas iš esmės skiriasi nuo to, kaip šie neuroniniai tinklai apdoroja vaizdus, palyginti su žmogaus smegenimis – žmogaus smegenys neapdorotų sustojimo ženklo su juodais lipdukais kaip greičio ribojimo ženklu. Tačiau tai yra neįtikėtinai gerai suprojektuotos sistemos, kurios kartais netgi pranoksta žmones, pavyzdžiui, veido atpažinimo užduotyse. Laboratorijoje daug dirbame, kad palygintume, kuo šios sistemos panašios ir kuo skiriasi.
Kai tik galime rasti AI sistemų apribojimus, pereiname prie neurologijos ir klausiame: „Kokio smegenų mechanizmo trūksta AI sistemose, kuris, kaip žinome, atlieka pagrindinį vaidmenį žmonių gebėjime tvirtai išspręsti šią užduotį ir efektyviai?” Tada sukuriame šio mechanizmo mašininio mokymosi abstrakcijas ir įterpiame jas į neuroninio tinklo AI sistemą. Pastebime, kad kai dirbtinio intelekto sistemas aprūpiname žmogaus smegenų įkvėptais mechanizmais, jos veikia daug geriau: jos yra tvirtesnės, veiksmingesnės mokosi ir tikslesnės mažiau treniruojantis.
Neurologijos srityje šis tyrimas padeda mums geriau suprasti žmogaus smegenis ir tai, kaip šie skirtumai tarp žmonių ir AI sistemų padeda žmonėms, taip pat galime lengviau ir saugiau patvirtinti savo idėjas, nei galėtume žmogaus smegenyse. Labai sunku suprasti, kaip smegenys apdoroja vaizdinę informaciją. Buvo sukurti metodai, skirti suprasti, kaip veikia neuronai ir ką jie daro, o su AI sistemomis dabar galime išbandyti šias teorijas ir įsitikinti, ar esame teisūs.
Sinergija yra abipusė: neuromokslai suteikia mums gerą įkvėpimą tobulinti AI. Tačiau tai, kad mes tobuliname dirbtinį intelektą iš tų neurologijos mechanizmų, taip pat yra būdas patvirtinti neuromokslo atradimus ir nustatyti pagrindinius bendrojo intelekto, regėjimo intelekto ir kt. mechanizmus.
Daug girdime apie susirūpinimą dėl AI sistemų, kurios yra pernelyg panašios į žmones. Bet atrodo, kad kalbant apie viziją, tai yra geras dalykas, ar ne?
Daugeliu atvejų mes nustatėme labai didelę naudą žmonėms suderinant AI regėjimo sistemą ir žmogaus regėjimo sistemą: modeliai, sukurti taip, kad būtų labiau panašūs į žmones, tampa patikimesni, patikimesni, atsparesni atakoms ir mažiau linkę daryti tai, ką darote. nenoriu, kad jie darytų.
Kokie tolesni šio tyrimo žingsniai?
Įdomu pamatyti, kaip dirbtinio intelekto sistemos skirsto į kategorijas natūralius objektus, bet manau, kad toliau bus panaudoti tai, ką sužinojome apie AI ir žmogaus regėjimą, siekiant padėti AI sistemoms spręsti dideles mokslo problemas, kurių žmonės šiuo metu negali išspręsti, pvz. pavyzdžiui, vėžio diagnostika, fosilijų atpažinimas arba kosmoso tyrinėjimas. Tai bus tikrai įdomu.
Citata: naujas įrankis paaiškina, kaip dirbtinis intelektas „mato“ vaizdus ir kodėl jis gali supainioti astronautą su kastuvu (2023 m. birželio 28 d.), gautas 2023 m. birželio 28 d. iš https://techxplore.com/news/2023-06-tool-ai-images -astronautas-kastuvas.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.

