Įsivaizduokite, kad mokslininkų komanda sukūrė mašininio mokymosi modelį, kuris pagal plaučių skenavimo vaizdus gali numatyti, ar pacientas serga vėžiu. Jie nori pasidalinti šiuo modeliu su ligoninėmis visame pasaulyje, kad gydytojai galėtų pradėti jį naudoti diagnozuojant.
Bet yra problema. Norėdami išmokyti savo modelį prognozuoti vėžį, jie parodė milijonus tikrų plaučių skenavimo vaizdų, o šis procesas vadinamas mokymu. Tuos neskelbtinus duomenis, kurie dabar yra užkoduoti modelio viduje, gali išgauti kenkėjiškas agentas. Mokslininkai gali to užkirsti kelią modeliui pridėdami triukšmo arba bendresnio atsitiktinumo, dėl kurio priešininkui sunkiau atspėti pradinius duomenis. Tačiau trikdžiai sumažina modelio tikslumą, todėl kuo mažiau triukšmo galima pridėti, tuo geriau.
MIT mokslininkai sukūrė metodą, leidžiantį vartotojui potencialiai pridėti mažiausią triukšmo kiekį, tuo pačiu užtikrinant jautrių duomenų apsaugą.
Tyrėjai sukūrė naują privatumo metriką, kurią jie vadina tikriausiai apytiksliai teisingu (PAC) privatumu, ir pagal šią metriką sukūrė sistemą, kuri gali automatiškai nustatyti minimalų triukšmo kiekį, kurį reikia pridėti. Be to, šiai sistemai nereikia žinių apie vidinį modelio veikimą ar jo mokymo procesą, todėl ją lengviau naudoti įvairių tipų modeliams ir programoms.
Kai kuriais atvejais mokslininkai parodė, kad triukšmo kiekis, reikalingas jautriems duomenims apsaugoti nuo priešų, yra daug mažesnis naudojant PAC privatumą nei naudojant kitus metodus. Tai galėtų padėti inžinieriams sukurti mašininio mokymosi modelius, kurie akivaizdžiai slepia mokymo duomenis, kartu išlaikant tikslumą realaus pasaulio nustatymuose.
„PAC privatumas prasmingai išnaudoja jautrių duomenų neapibrėžtumą arba entropiją, o tai leidžia mums daugeliu atvejų pridėti dydžiu mažiau triukšmo. Ši sistema leidžia suprasti savavališko duomenų apdorojimo ypatybes ir automatiškai juos privatizuoti be dirbtinių pakeitimų. Kol dar tik pradedame kurti paprastus pavyzdžius, džiaugiamės šios technikos pažadu“, – sako Srini Devadas, Edwin Sibley Webster elektros inžinerijos profesorius ir naujo straipsnio apie PAC privatumą bendraautoris.
Devadas parašė straipsnį kartu su pagrindiniu autoriumi Hanshenu Xiao, elektros inžinerijos ir kompiuterių mokslų magistrantu. Tyrimas bus pristatytas Tarptautinėje kriptografijos konferencijoje (Crypto 2023).
Privatumo apibrėžimas
Esminis duomenų privatumo klausimas yra toks: kiek jautrių duomenų priešininkas galėtų susigrąžinti iš mašininio mokymosi modelio, į kurį įtrauktas triukšmas?
Diferencialinis privatumas, vienas iš populiarių privatumo apibrėžimų, teigia, kad privatumas pasiekiamas, jei priešas, stebintis išleistą modelį, negali daryti išvados, ar savavališko asmens duomenys naudojami mokymui apdoroti. Tačiau norint, kad priešas negalėtų atskirti duomenų naudojimo, dažnai reikalauja didelio triukšmo, kad jį užgožtų. Šis triukšmas sumažina modelio tikslumą.
PAC privatumas į problemą žiūri šiek tiek kitaip. Tai apibūdina, kaip sunku priešininkui būtų atkurti bet kurią atsitiktinai atrinktų arba sugeneruotų jautrių duomenų dalį, kai bus pridėtas triukšmas, o ne sutelkti dėmesį tik į atskyrimo problemą.
Pavyzdžiui, jei jautrūs duomenys yra žmonių veidų vaizdai, diferencijuotas privatumas būtų sutelktas į tai, ar priešas gali pasakyti, ar duomenų rinkinyje yra kieno nors veidas. Kita vertus, PAC Privacy galėtų pažvelgti į tai, ar priešas gali išgauti siluetą – apytikslį – kurį kas nors galėtų atpažinti kaip konkretaus asmens veidą.
Sukūrę PAC privatumo apibrėžimą, mokslininkai sukūrė algoritmą, kuris automatiškai nurodo vartotojui, kiek triukšmo reikia pridėti prie modelio, kad priešas negalėtų užtikrintai atkurti jautrių duomenų. Šis algoritmas garantuoja privatumą, net jei priešas turi begalinę skaičiavimo galią, sako Xiao.
Norint rasti optimalų triukšmo kiekį, PAC privatumo algoritmas remiasi pirminių duomenų neapibrėžtumu arba entropija priešo požiūriu.
Ši automatinė technika atsitiktinai paima pavyzdžius iš duomenų paskirstymo arba didelio duomenų telkinio ir paleidžia naudotojo mašininio mokymosi mokymo algoritmą pagal tuos atrinktus duomenis, kad sukurtų išmoktą išvesties modelį. Jis tai daro daug kartų su skirtingomis atrankomis ir lygina visų išėjimų dispersiją. Šis nuokrypis lemia, kiek triukšmo reikia pridėti – mažesnė dispersija reiškia, kad reikia mažiau triukšmo.
Algoritmo privalumai
Skirtingai nuo kitų privatumo metodų, PAC privatumo algoritmui nereikia žinių apie vidinį modelio veikimą ar mokymo procesą.
Įdiegdamas PAC privatumą, vartotojas gali iš pat pradžių nurodyti norimą pasitikėjimo lygį. Pavyzdžiui, galbūt vartotojas nori garantijos, kad priešas nebus daugiau nei 1 proc. įsitikinęs, kad jis sėkmingai atkūrė neskelbtinus duomenis iki 5 procentų tikrosios vertės. PAC privatumo algoritmas automatiškai nurodo vartotojui optimalų triukšmo kiekį, kurį reikia pridėti prie išvesties modelio, prieš jį bendrinant viešai, kad būtų pasiekti šie tikslai.
„Triukšmas yra optimalus ta prasme, kad jei pridėsite mažiau, nei mes jums pasakysime, visi statymai gali būti išjungti. Tačiau triukšmo pridėjimo prie neuroninio tinklo parametrų poveikis yra sudėtingas, ir mes nežadame, kad modelis gali sumažėti dėl papildomo triukšmo“, – sako Xiao.
Tai rodo vieną PAC privatumo apribojimą – ši technika vartotojui nenurodo, kiek tikslumo modelis praras, kai bus pridėtas triukšmas. PAC privatumas taip pat apima pakartotinį mašininio mokymosi modelio mokymą dėl daugelio duomenų atrankų, todėl tai gali būti brangu.
Siekiant pagerinti PAC privatumą, vienas iš būdų yra modifikuoti vartotojo mašininio mokymosi procesą, kad jis būtų stabilesnis, o tai reiškia, kad jo sukurtas išvesties modelis labai nesikeičia, kai įvesties duomenys atrenkami iš duomenų telkinio. Dėl šio stabilumo tarp imties išėjimų būtų mažesni skirtumai, todėl norint nustatyti optimalų triukšmo kiekį, PAC privatumo algoritmą reikėtų paleisti ne tik mažiau kartų, bet ir pridėti mažiau triukšmo.
Papildomas stabilesnių modelių pranašumas yra tas, kad juose dažnai yra mažiau apibendrinimo klaidų, o tai reiškia, kad jie gali tiksliau prognozuoti anksčiau nematytus duomenis, o tai yra abipusiai naudinga situacija tarp mašininio mokymosi ir privatumo, priduria Devadas.
„Per ateinančius kelerius metus norėtume šiek tiek giliau pažvelgti į šį ryšį tarp stabilumo ir privatumo bei ryšį tarp privatumo ir apibendrinimo klaidos. Čia beldžiamės į duris, bet kol kas neaišku, kur veda“, – sako jis.
Šį tyrimą iš dalies finansuoja DSTA Singapore, Cisco Systems, Capital One ir MathWorks stipendija.