Kompiuteriai turi dvi nuostabias galimybes, susijusias su vaizdais: jie gali juos identifikuoti ir generuoti iš naujo. Istoriškai šios funkcijos buvo atskirtos, panašios į skirtingus šefo, kuris moka gaminti patiekalus (karta), ir žinovo, kuris gerai skanauja patiekalus (atpažinimas), poelgius.
Vis dėlto negalima susimąstyti: ko reikėtų norint sukurti darnią šių dviejų išskirtinių gebėjimų sąjungą? Ir virėjas, ir žinovas turi bendrą supratimą apie maisto skonį. Panašiai vieninga regėjimo sistema reikalauja gilaus vizualinio pasaulio supratimo.
Dabar MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) tyrėjai išmokė sistemą, leidžiančią nustatyti trūkstamas vaizdo dalis, o tai reikalauja gilaus vaizdo turinio supratimo. Sėkmingai užpildydama tuščias vietas, sistema, žinoma kaip Masked Generative Encoder (MAGE), vienu metu pasiekia du tikslus: tiksliai identifikuoja vaizdus ir sukuria naujus, labai panašius į tikrovę.
Ši dvigubos paskirties sistema suteikia galimybę pritaikyti daugybę galimų pritaikymų, pavyzdžiui, objektų identifikavimą ir klasifikavimą vaizduose, greitą mokymąsi iš minimalių pavyzdžių, vaizdų kūrimą konkrečiomis sąlygomis, pvz., tekstu ar klase, ir esamų vaizdų tobulinimą.
Skirtingai nuo kitų metodų, MAGE neveikia su neapdorotais pikseliais. Vietoj to, jis konvertuoja vaizdus į vadinamuosius semantinius žetonus, kurie yra kompaktiškos, tačiau abstrahuotos vaizdo dalies versijos. Pagalvokite apie šiuos žetonus kaip apie mažas dėlionės dalis, kurių kiekviena yra 16 x 16 pradinio vaizdo lopinėlis. Kaip žodžiai sudaro sakinius, šie žetonai sukuria abstrakčią vaizdo versiją, kuri gali būti naudojama sudėtingoms apdorojimo užduotims, išsaugant informaciją pradiniame vaizde. Toks atpažinimo veiksmas gali būti apmokytas savarankiškai prižiūrimoje sistemoje, leidžiantis iš anksto apmokyti didelius vaizdo duomenų rinkinius be etikečių.
Dabar magija prasideda, kai MAGE naudoja „maskuotą žetonų modeliavimą“. Jis atsitiktinai paslepia kai kuriuos iš šių žetonų, sukurdamas nepilną galvosūkį, o tada treniruoja neuroninį tinklą, kad užpildytų spragas. Tokiu būdu jis išmoksta suprasti paveikslo modelius (vaizdo atpažinimas), ir generuoti naujus (vaizdo generavimas).
„Viena išskirtinė MAGE dalis yra kintama maskavimo strategija išankstinio mokymo metu, leidžianti treniruotis atlikti užduotis, vaizdų generavimą ar atpažinimą toje pačioje sistemoje“, – sako Tianhong Li, MIT elektrotechnikos ir kompiuterių mokslo doktorantas. , CSAIL filialas ir pagrindinis straipsnio apie tyrimą autorius. „MAGE gebėjimas dirbti „žetonų erdvėje“, o ne „pikselių erdvėje“, sukuria aiškų, detalų ir aukštos kokybės vaizdą, taip pat semantiškai turtingą vaizdą. Tikimasi, kad tai atvers kelią pažangiems ir integruotiems kompiuterinio regėjimo modeliams.
Be gebėjimo generuoti tikroviškus vaizdus nuo nulio, MAGE taip pat leidžia generuoti sąlyginius vaizdus. Vartotojai gali nurodyti tam tikrus vaizdų, kuriuos nori MAGE generuoti, kriterijus, o įrankis sukurs atitinkamą vaizdą. Jis taip pat gali atlikti vaizdo redagavimo užduotis, pvz., pašalinti elementus iš vaizdo, išlaikant tikrovišką išvaizdą.
Atpažinimo užduotys yra dar vienas stiprus MAGE pranašumas. Turėdamas galimybę iš anksto apmokyti didelius nepažymėtus duomenų rinkinius, jis gali klasifikuoti vaizdus naudodamas tik išmoktas reprezentacijas. Be to, jis puikiai mokosi kelių kadrų metu ir pasiekia įspūdingų rezultatų naudojant didelius vaizdų duomenų rinkinius, tokius kaip „ImageNet“, turėdamas tik keletą pažymėtų pavyzdžių.
MAGE veiklos patvirtinimas buvo įspūdingas. Viena vertus, jis nustatė naujus rekordus kuriant naujus vaizdus ir gerokai patobulindamas ankstesnius modelius. Kita vertus, MAGE buvo aukščiausia atpažinimo užduočių srityje, pasiekdama 80,9 procentų tikslumą tiesinio zondavimo metu ir 71,9 procentų 10 kadrų tikslumą „ImageNet“ (tai reiškia, kad jis teisingai atpažino vaizdus 71,9 procento atvejų, kai turėjo tik 10 pažymėtų pavyzdžių iš kiekvienos). klasė).
Nepaisant savo stipriųjų pusių, tyrimų grupė pripažįsta, kad MAGE yra nebaigtas darbas. Vaizdų konvertavimo į žetonus procesas neišvengiamai praranda tam tikrą informaciją. Jie nori ištirti būdus, kaip suspausti vaizdus neprarandant svarbių detalių būsimame darbe. Komanda taip pat ketina išbandyti MAGE didesniuose duomenų rinkiniuose. Ateities tyrinėjimai gali apimti MAGE mokymą su didesniais nepažymėtais duomenų rinkiniais, dėl kurių našumas gali būti dar geresnis.
„Ilgai svajojome sukurti vaizdą ir atpažinti vaizdą vienoje sistemoje. MAGE yra novatoriškas tyrimas, kuris sėkmingai panaudoja šių dviejų užduočių sinergiją ir pasiekia aukščiausią jų techniką vienoje sistemoje“, – sako Huisheng Wang, vyresnysis personalo programinės įrangos inžinierius, atsakingas už žmones ir sąveiką tyrimų ir mašinų intelekto srityje. „Google“ padalinys, kuris nedalyvavo darbe. „Ši naujoviška sistema turi platų pritaikymo spektrą ir gali įkvėpti daug ateities darbų kompiuterinio matymo srityje.
Li parašė darbą kartu su Dina Katabi, Thuan ir Nicole Pham, MIT Elektros inžinerijos ir kompiuterių mokslo katedros profesore ir CSAIL pagrindine tyrėja; Huiwen Chang, „Google“ vyresnysis mokslo darbuotojas; Shlok Kumar Mishra, Merilendo universiteto doktorantas ir „Google“ tyrimų praktikantas; Han Zhang, vyresnysis „Google“ mokslininkas; ir Dilipas Krishnanas, „Google“ personalo mokslininkas. Skaičiavimo išteklius suteikė „Google Cloud Platform“ ir „MIT-IBM Watson AI Lab“. Grupės tyrimas buvo pristatytas 2023 m. kompiuterinės vizijos ir modelių atpažinimo konferencijoje.

