Kreditas: Pixabay / CC0 viešasis domenas Įsivaizduokite, kad mokslininkų komanda sukūrė mašininio mokymosi modelį, kuris pagal plaučių skenavimo vaizdus gali numatyti, ar pacientas serga vėžiu. Jie nori pasidalinti šiuo modeliu su ligoninėmis visame pasaulyje, kad gydytojai galėtų pradėti jį naudoti diagnozuodami.
Bet yra problema. Norėdami išmokyti savo modelį prognozuoti vėžį, jie parodė milijonus tikrų plaučių skenavimo vaizdų, o šis procesas vadinamas mokymu. Tuos neskelbtinus duomenis, kurie dabar yra užkoduoti modelio viduje, gali išgauti kenkėjiškas agentas. Mokslininkai gali to užkirsti kelią modeliui pridėdami triukšmo arba bendresnio atsitiktinumo, dėl kurio priešininkui sunkiau atspėti pradinius duomenis. Tačiau trikdžiai sumažina modelio tikslumą, todėl kuo mažiau triukšmo galima pridėti, tuo geriau.
MIT mokslininkai dabar sukūrė techniką, kuri leidžia vartotojui potencialiai pridėti mažiausią įmanomą triukšmo kiekį, tuo pačiu užtikrinant jautrių duomenų apsaugą.
Tyrėjai sukūrė naują privatumo metriką, kurią jie vadina tikriausiai apytiksliai teisingu (PAC) privatumu, ir pagal šią metriką sukūrė sistemą, kuri gali automatiškai nustatyti minimalų triukšmo kiekį, kurį reikia pridėti. Be to, šiai sistemai nereikia žinių apie vidinį modelio veikimą ar jo mokymo procesą, todėl ją lengviau naudoti įvairių tipų modeliams ir programoms.
Kai kuriais atvejais mokslininkai parodė, kad triukšmo kiekis, reikalingas jautriems duomenims apsaugoti nuo priešų, yra daug mažesnis naudojant PAC privatumą nei naudojant kitus metodus. Tai galėtų padėti inžinieriams sukurti mašininio mokymosi modelius, kurie akivaizdžiai slepia mokymo duomenis, kartu išlaikant tikslumą realaus pasaulio nustatymuose.
„PAC Privacy prasmingai išnaudoja neskelbtinų duomenų neapibrėžtumą arba entropiją, o tai leidžia mums daugeliu atvejų padidinti triukšmą. Ši sistema leidžia suprasti savavališko duomenų apdorojimo ypatybes ir juos privatizuoti. automatiškai be dirbtinių modifikacijų. Nors dar tik pradedame ir darome paprastus pavyzdžius, džiaugiamės šios technikos pažadu“, – sako Srini Devadas, Edwin Sibley Webster elektros inžinerijos profesorius ir naujo straipsnio bendraautoris. apie PAC privatumą.
Devadas parašė straipsnį kartu su pagrindiniu autoriumi Hanshenu Xiao, elektros inžinerijos ir kompiuterių mokslų magistrantu. Tyrimas bus pristatytas rugpjūčio 24 dieną Tarptautinėje kriptologijos konferencijoje (Crypto 2023).
Privatumo apibrėžimas
Esminis duomenų privatumo klausimas yra toks: kiek jautrių duomenų priešininkas galėtų susigrąžinti iš mašininio mokymosi modelio, į kurį įtrauktas triukšmas?
Diferencialinis privatumas, vienas iš populiarių privatumo apibrėžimų, teigia, kad privatumas pasiekiamas, jei priešas, stebintis išleistą modelį, negali daryti išvados, ar savavališko asmens duomenys naudojami mokymui apdoroti. Tačiau norint, kad priešas negalėtų atskirti duomenų naudojimo, dažnai reikalauja didelio triukšmo, kad jį užgožtų. Šis triukšmas sumažina modelio tikslumą.
PAC privatumas į problemą žiūri šiek tiek kitaip. Tai apibūdina, kaip sunku priešininkui būtų atkurti bet kurią atsitiktinai atrinktų arba sugeneruotų jautrių duomenų dalį, kai bus pridėtas triukšmas, o ne sutelkti dėmesį tik į atskyrimo problemą.
Pavyzdžiui, jei jautrūs duomenys yra žmonių veidų vaizdai, diferencijuotas privatumas būtų sutelktas į tai, ar priešas gali pasakyti, ar duomenų rinkinyje yra kieno nors veidas. Kita vertus, PAC Privacy galėtų pažvelgti į tai, ar priešas gali išgauti siluetą – apytikslį –, kurį kas nors galėtų atpažinti kaip konkretaus asmens veidą.
Sukūrę PAC privatumo apibrėžimą, mokslininkai sukūrė algoritmą, kuris automatiškai nurodo vartotojui, kiek triukšmo reikia pridėti prie modelio, kad priešas negalėtų užtikrintai atkurti jautrių duomenų. Šis algoritmas garantuoja privatumą, net jei priešas turi begalinę skaičiavimo galią, sako Xiao.
Norint rasti optimalų triukšmo kiekį, PAC privatumo algoritmas remiasi pirminių duomenų neapibrėžtumu arba entropija priešo požiūriu.
Ši automatinė technika atsitiktinai paima pavyzdžius iš duomenų paskirstymo arba didelio duomenų telkinio ir paleidžia naudotojo mašininio mokymosi mokymo algoritmą pagal tuos atrinktus duomenis, kad sukurtų išmoktą išvesties modelį. Jis tai daro daug kartų su skirtingomis atrankomis ir lygina visų išėjimų dispersiją. Šis nuokrypis lemia, kiek triukšmo reikia pridėti – mažesnė dispersija reiškia, kad reikia mažiau triukšmo.
Algoritmo privalumai
Skirtingai nuo kitų privatumo metodų, PAC privatumo algoritmui nereikia žinių apie vidinį modelio veikimą ar mokymo procesą.
Įdiegdamas PAC privatumą, vartotojas gali iš pat pradžių nurodyti norimą pasitikėjimo lygį. Pavyzdžiui, galbūt vartotojas nori garantijos, kad priešas nebus daugiau nei 1 % įsitikinęs, kad jis sėkmingai atkūrė neskelbtinus duomenis 5 % jų tikrosios vertės tikslumu. PAC privatumo algoritmas automatiškai nurodo vartotojui optimalų triukšmo kiekį, kurį reikia pridėti prie išvesties modelio, prieš jį bendrinant viešai, kad būtų pasiekti šie tikslai.
„Triukšmas yra optimalus ta prasme, kad jei pridėsite mažiau, nei mes jums sakome, visi statymai gali būti išjungti. Tačiau triukšmo pridėjimo prie neuroninio tinklo parametrų poveikis yra sudėtingas, ir mes nežadame, kad modelis bus sumažintas. gali patirti papildomo triukšmo“, – sako Xiao.
Tai rodo vieną PAC privatumo apribojimą – ši technika nenurodo vartotojui, kiek modelis praras tikslumą, kai bus pridėtas triukšmas. PAC privatumas taip pat apima pakartotinį mašininio mokymosi modelio mokymą dėl daugelio duomenų atrankų, todėl tai gali būti brangu.
Siekiant pagerinti PAC privatumą, vienas iš būdų yra modifikuoti vartotojo mašininio mokymosi procesą, kad jis būtų stabilesnis, o tai reiškia, kad jo sukurtas išvesties modelis labai nesikeičia, kai įvesties duomenys atrenkami iš duomenų telkinio. Dėl šio stabilumo tarp imties išėjimų būtų mažesni skirtumai, todėl norint nustatyti optimalų triukšmo kiekį, PAC privatumo algoritmą reikėtų paleisti ne tik mažiau kartų, bet ir pridėti mažiau triukšmo.
Papildomas stabilesnių modelių pranašumas yra tas, kad juose dažnai yra mažiau apibendrinimo klaidų, o tai reiškia, kad jie gali tiksliau prognozuoti anksčiau nematytus duomenis, o tai yra abipusiai naudinga situacija tarp mašininio mokymosi ir privatumo, priduria Devadas.
„Per ateinančius kelerius metus norėtume šiek tiek giliau pažvelgti į šį stabilumo ir privatumo bei privatumo ir apibendrinimo klaidos ryšį. Beldžiamės į duris, bet kol kas neaišku, kur veda durys ,” jis sako.
Daugiau informacijos: Hanshen Xiao ir kt., PAC privatumas: automatinis privatumo vertinimas ir duomenų apdorojimo kontrolė, arXiv (2022). DOI: 10.48550/arxiv.2210.03458
Žurnalo informacija: arXiv
Citata: Tyrėjai kuria privatumo techniką, kuri apsaugo jautrius duomenis išlaikant našumą (2023 m. liepos 14 d.), gauta 2023 m. liepos 16 d. iš https://techxplore.com/news/2023-07-privacy-technique-sensitive.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.