Kai įžengiame į naują erą, kai dirbtinio intelekto valdomos technologijos gali kurti ir manipuliuoti vaizdais tokiu tikslumu, kuris ištrina ribą tarp tikrovės ir prasimanymo, netinkamo naudojimo šmėkla iškyla. Pastaruoju metu pažangūs generatyvūs modeliai, tokie kaip DALL-E ir Midjourney, garsėjantys įspūdingu tikslumu ir patogiomis sąsajomis, padarė itin tikroviškų vaizdų kūrimą palyginti nesunkiai. Sumažėjus įėjimo kliūtims, net nepatyrę vartotojai gali generuoti aukštos kokybės vaizdus ir jais manipuliuoti iš paprastų teksto aprašymų – nuo nekaltų vaizdo pakeitimų iki kenkėjiškų pakeitimų. Metodai, tokie kaip vandens ženklai, yra daug žadantis sprendimas, tačiau netinkamam naudojimui reikia prevencinės (o ne tik post hoc) priemonės.
Siekdami sukurti tokią naują priemonę, mokslininkai iš MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) sukūrė „PhotoGuard“ techniką, kuri naudoja perturbacijas – nedidelius pikselių reikšmių pokyčius, nematomus žmogaus akiai, bet aptinkamus kompiuteriniais modeliais. veiksmingai sutrikdyti modelio galimybę manipuliuoti vaizdu.
„PhotoGuard“ naudoja du skirtingus „atakos“ metodus, kad sukurtų šiuos trikdžius. Paprastesnė „kodavimo“ ataka nukreipta į vaizdo latentinį vaizdą AI modelyje, todėl modelis vaizdą suvokia kaip atsitiktinį objektą. Sudėtingesnė „difuzija“ apibrėžia tikslinį vaizdą ir optimizuoja trikdžius, kad galutinis vaizdas būtų kuo panašesnis į taikinį.
„Apsvarstykite galimybę nesąžiningai platinti netikrus katastrofiškus įvykius, pavyzdžiui, sprogimą svarbiame orientyre. Ši apgaulė gali manipuliuoti rinkos tendencijomis ir visuomenės nuotaikomis, tačiau rizika neapsiriboja viešąja sfera. Asmeniniai vaizdai gali būti netinkamai pakeisti ir naudojami šantažui, o tai turi didelių finansinių pasekmių, kai vykdoma dideliu mastu“, – sako Hadi Salman, MIT elektros inžinerijos ir informatikos mokslų (EECS) absolventas, MIT CSAIL filialas ir pagrindinis autorius. naujo dokumento apie PhotoGuard.
„Ekstremalesniais scenarijais šie modeliai gali imituoti balsus ir vaizdus, kad būtų galima inscenizuoti melagingus nusikaltimus, sukelti psichologinę kančią ir finansinius nuostolius. Greitas šių veiksmų pobūdis apsunkina problemą. Net kai apgaulė galiausiai atskleidžiama, žala – tiek reputacija, tiek emocinė, tiek finansinė – dažnai jau būna padaryta. Tai realybė aukoms visais lygiais – nuo asmenų, patiriančių patyčias mokykloje, iki visos visuomenės manipuliavimo.
PhotoGuard praktikoje
AI modeliai vaizdą mato kitaip nei žmonės. Vaizdas matomas kaip sudėtingas matematinių duomenų taškų rinkinys, apibūdinantis kiekvieno pikselio spalvą ir padėtį – tai yra latentinis vaizdo vaizdas. Kodavimo ataka įveda nedidelius šio matematinio vaizdavimo pakeitimus, todėl AI modelis vaizdą suvokia kaip atsitiktinį objektą. Dėl to bet koks bandymas manipuliuoti vaizdu naudojant modelį tampa beveik neįmanomas. Įvesti pakeitimai tokie smulkmeniški, kad yra nepastebimi žmogaus akiai, todėl išsaugomas vaizdo vizualinis vientisumas ir užtikrinama jo apsauga.
Antroji ir neabejotinai sudėtingesnė „difuzijos“ ataka strategiškai nukreipta į visą sklaidos modelį nuo galo iki galo. Tai apima norimo tikslinio vaizdo nustatymą ir optimizavimo proceso inicijavimą, siekiant glaudžiai suderinti sugeneruotą vaizdą su šiuo iš anksto pasirinktu objektu.
Diegiant komanda sukūrė trikdžius pradinio vaizdo įvesties erdvėje. Tada šie trikdžiai naudojami išvados etape ir taikomi vaizdams, užtikrinant tvirtą apsaugą nuo neteisėto manipuliavimo.
„Mūsų stebima DI pažanga yra tikrai kvapą gniaužianti, tačiau ji leidžia naudingai ir kenkėjiškai naudoti AI“, – sako MIT EECS profesorius ir CSAIL pagrindinis tyrėjas Aleksandras Madry, kuris taip pat yra šio dokumento autorius. „Todėl skubiai stengiamės nustatyti ir sušvelninti pastarąsias. Manau, kad „PhotoGuard“ yra nedidelis mūsų indėlis į šias svarbias pastangas.
Difuzijos ataka reikalauja daug daugiau skaičiavimo nei paprastesnis brolis ir reikalauja daug GPU atminties. Grupė teigia, kad apytikslis difuzijos procesas su mažiau žingsnių sumažina problemą, todėl technika tampa praktiškesnė.
Norėdami geriau iliustruoti ataką, apsvarstykite, pavyzdžiui, meno projektą. Originalus vaizdas yra piešinys, o tikslinis vaizdas yra kitas piešinys, kuris yra visiškai kitoks. Difuzijos ataka yra tarsi mažyčių, nematomų pirmojo piešinio pakeitimų atlikimas, kad dirbtinio intelekto modelyje jis pradėtų panašėti į antrąjį piešinį. Tačiau žmogaus akiai originalus piešinys išlieka nepakitęs.
Taip elgdamasis bet koks AI modelis, bandantis modifikuoti pradinį vaizdą, dabar netyčia atliks pakeitimus, tarsi būtų susijęs su tiksliniu vaizdu, taip apsaugodamas pradinį vaizdą nuo numatomo manipuliavimo. Rezultatas yra vaizdas, kuris lieka nepakitęs žmogaus stebėtojams, tačiau apsaugo nuo neteisėto AI modelių redagavimo.
Kalbant apie realų PhotoGuard pavyzdį, apsvarstykite vaizdą su keliais veidais. Galite užmaskuoti bet kokius veidus, kurių nenorite keisti, o tada paraginti „du vyrai dalyvauja vestuvėse“. Pateikus, sistema atitinkamai pakoreguos vaizdą ir sukurs patikimą dviejų vyrų, dalyvaujančių vestuvių ceremonijoje, vaizdą.
Dabar apsvarstykite galimybę apsaugoti vaizdą nuo redagavimo; prieš įkeliant vaizdą pridėjus trikdžių, jis gali būti apsaugotas nuo pakeitimų. Tokiu atveju galutiniam išėjimui trūks tikroviškumo, palyginti su originaliu, neimunizuotu vaizdu.
Visos rankos ant denio
Pagrindiniai sąjungininkai kovojant su vaizdo manipuliavimu yra vaizdo redagavimo modelių kūrėjai, teigia komanda. Kad „PhotoGuard“ veiktų veiksmingai, būtinas integruotas visų suinteresuotųjų šalių atsakas. „Politikos formuotojai turėtų apsvarstyti galimybę įgyvendinti reglamentus, įpareigojančius įmones apsaugoti vartotojų duomenis nuo tokių manipuliacijų. Šių dirbtinio intelekto modelių kūrėjai galėtų sukurti API, kurios automatiškai prideda trikdžių naudotojų vaizdams ir suteikia papildomos apsaugos nuo neteisėto redagavimo sluoksnį“, – sako Salmanas.
Nepaisant PhotoGuard pažado, tai nėra panacėja. Kai vaizdas yra internete, asmenys, turintys piktų kėslų, gali bandyti pakeisti apsaugos priemones, taikydami triukšmą, apkarpydami arba pasukdami vaizdą. Tačiau yra daug ankstesnių priešpriešinių pavyzdžių literatūros darbų, kuriuos čia galima panaudoti siekiant įgyvendinti tvirtus trikdžius, kurie priešinasi įprastam vaizdo manipuliavimui.
„Bendradarbiaujantis metodas, apimantis modelių kūrėjus, socialinės žiniasklaidos platformas ir politikos formuotojus, yra tvirta apsauga nuo neteisėto vaizdo manipuliavimo. Darbas su šiuo neatidėliotinu klausimu šiandien yra nepaprastai svarbus“, – sako Salmanas. „Ir nors džiaugiuosi galėdamas prisidėti prie šio sprendimo, reikia daug padirbėti, kad ši apsauga būtų praktiška. Šiuos modelius kuriančios įmonės turi investuoti į patikimų imunizacijų projektavimą nuo galimų šių AI įrankių keliamų grėsmių. Žengdami į šią naują generatyvinių modelių erą, siekime potencialo ir apsaugos vienodomis priemonėmis.
„Galimybė panaudoti atakas prieš mašininį mokymąsi, siekiant apsaugoti mus nuo piktnaudžiavimo šia technologija, yra labai patraukli“, – sako Florianas Tramèras, ETH Ciuricho docentas. „Straipsnyje pateikiama graži įžvalga, kad generatyvinių AI modelių kūrėjai turi stiprių paskatų teikti tokias imunizavimo priemones savo vartotojams, o tai ateityje gali būti net teisinis reikalavimas. Tačiau sukurti vaizdo apsaugą, kuri veiksmingai atsispirtų bandymams apeiti, yra sudėtinga problema: kai generuojanti dirbtinio intelekto įmonė įsipareigoja taikyti imunizacijos mechanizmą ir žmonės pradės jį taikyti savo internetiniams vaizdams, turime užtikrinti, kad ši apsauga veiks prieš motyvuotus priešininkus, kurie netgi gali naudoti geresnius generatyvius AI modelius, sukurtus artimiausioje ateityje. Tokių tvirtų apsaugos priemonių kūrimas yra sudėtinga ir atvira problema, ir šiame dokumente įtikinamai teigiama, kad generuojančios AI įmonės turėtų stengtis tai išspręsti.
Salmanas parašė straipsnį kartu su kitais pagrindiniais autoriais Alaa Khaddaj ir Guillaume Leclerc MS ’18, taip pat Andrew Ilyas’18, MEng ’18; visi trys yra EECS absolventai ir MIT CSAIL filialai. Grupės darbas iš dalies buvo atliktas MIT Supercloud skaičiavimo klasteryje, remiamas JAV Nacionalinio mokslo fondo dotacijų ir Atviros filantropijos bei JAV gynybos pažangių tyrimų projektų agentūros remiamu darbu. Jis buvo pristatytas Tarptautinėje mašininio mokymosi konferencijoje šių metų liepą.