Algoritmai rekomenduoja produktus, kai apsiperkame internetu, arba siūlo dainas, kurios mums gali patikti, kai klausomės muzikos srautinio siuntimo programėlėse
Šie algoritmai veikia naudodami asmeninę informaciją, pavyzdžiui, mūsų ankstesnius pirkinius ir naršymo istoriją, kad sukurtų pritaikytas rekomendacijas. Kadangi tokie duomenys yra jautrūs, labai svarbu išsaugoti privatumą, tačiau esami šios problemos sprendimo būdai remiasi sunkiomis kriptografinėmis priemonėmis, reikalaujančiomis milžiniškų skaičiavimų ir pralaidumo
MIT tyrėjai gali turėti geresnį sprendimą. Jie sukūrė privatumo išsaugojimo protokolą, kuris yra toks efektyvus, kad gali veikti išmaniajame telefone per labai lėtą tinklą. Jų metodas apsaugo asmeninius duomenis ir kartu užtikrina, kad rekomendacijų rezultatai būtų tikslūs
Be naudotojo privatumo, jų protokolas sumažina neleistiną informacijos perdavimą iš duomenų bazės, vadinamąjį nutekėjimą, net jei piktavalis agentas bando apgaule priversti duomenų bazę atskleisti slaptą informaciją.
Naujasis protokolas gali būti ypač naudingas tais atvejais, kai duomenų nutekėjimas gali pažeisti vartotojų privatumo įstatymus, pavyzdžiui, kai sveikatos priežiūros paslaugų teikėjas, naudodamas paciento ligos istoriją, duomenų bazėje ieško kitų pacientų, kuriems pasireiškė panašūs simptomai, arba kai bendrovė pagal Europos privatumo taisykles vartotojams pateikia tikslinę reklamą.
„Tai tikrai sudėtinga problema. Mes naudojome visą eilę kriptografinių ir algoritminių gudrybių, kad sukurtume savo protokolą”, – sako kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) magistrantas Saša Servanas-Schreiberis (Sacha Servan-Schreiber) ir pagrindinis straipsnio, kuriame pristatomas šis naujas protokolas, autorius
Servanas-Schreiberis straipsnį parašė kartu su kitu CSAIL magistrantu Simonu Langovskiu (Simon Langowski) ir jų patarėju bei vyresniuoju autoriumi Srinivasu Devadasu (Srinivas Devadas), Edvino Sibley Websterio (Edwin Sibley Webster) elektros inžinerijos profesoriumi. Tyrimas bus pristatytas IEEE saugumo ir privatumo simpoziume.
Duomenys šalia
Algoritminių rekomendavimo sistemų pagrindas yra vadinamoji artimiausio kaimyno paieška, kurios metu duomenų bazėje surandamas duomenų taškas, kuris yra arčiausiai užklausos taško. Netoliese esantys duomenų taškai turi panašius požymius ir vadinami kaimynais.
Šiose paieškose dalyvauja serveris, susietas su internetine duomenų baze, kurioje yra glaustai pateikti duomenų taškų požymiai. Muzikos transliavimo paslaugos atveju tie atributai, vadinamieji požymių vektoriai, gali būti įvairių dainų žanras arba populiarumas.
Norėdamas rasti dainos rekomendaciją, klientas (naudotojas) siunčia serveriui užklausą, kurioje yra tam tikras požymių vektorius, pavyzdžiui, naudotojui patinkantis muzikos žanras arba suspausta jo klausymosi įpročių istorija. Tada serveris pateikia duomenų bazėje esančio požymių vektoriaus, kuris yra artimiausias kliento užklausai, ID, neatskleisdamas tikrojo vektoriaus. Muzikos transliacijos atveju tas ID greičiausiai būtų dainos pavadinimas. Klientas sužino rekomenduojamą dainos pavadinimą, nesužinodamas su juo susijusio požymių vektoriaus.
„Serveris turi sugebėti atlikti šį skaičiavimą nematydamas skaičių, su kuriais jis atlieka skaičiavimus. Iš tikrųjų jis negali matyti požymių, bet vis tiek turi pateikti jums artimiausią duomenų bazėje esantį dalyką”, – sako Langovskis
Kad tai pasiektų, tyrėjai sukūrė protokolą, kuris remiasi dviem atskirais serveriais, turinčiais prieigą prie tos pačios duomenų bazės. Naudojant du serverius procesas tampa efektyvesnis ir leidžia naudoti kriptografinį metodą, vadinamą privačia informacijos paieška. Šis metodas leidžia klientui pateikti užklausą duomenų bazei neatskleidžiant, ko jis ieško, aiškina Servan-Schreiber.
Saugumo iššūkių įveikimas
Tačiau nors privati informacijos paieška yra saugi kliento pusėje, ji pati savaime neužtikrina duomenų bazės privatumo. Duomenų bazė klientui siūlo kandidatų vektorių – galimų artimiausių kaimynų – rinkinį, kurį klientas vėliau paprastai išrenka naudodamasis grubia jėga. Tačiau taip elgdamasis klientas gali daug sužinoti apie duomenų bazę. Papildomas privatumo uždavinys – neleisti klientui sužinoti šių papildomų vektorių.
Tyrėjai pritaikė derinimo metodą, kuris pirmiausia pašalina daug papildomų vektorių, o tada panaudojo kitą triuką, kurį pavadino užmirštamuoju maskavimu, kad paslėptų visus papildomus duomenų taškus, išskyrus tikrąjį artimiausią kaimyną. Taip veiksmingai išsaugomas duomenų bazės privatumas, todėl klientas nieko nesužinos apie duomenų bazėje esančius požymių vektorius.
Sukūrę šį protokolą, jie išbandė jį su neprivatiu įgyvendinimu keturiuose realiuose duomenų rinkiniuose, kad nustatytų, kaip sureguliuoti algoritmą, kad jis būtų kuo tikslesnis. Tada jie naudojo savo protokolą privačioms artimiausių kaimynų paieškos užklausoms tuose duomenų rinkiniuose atlikti.
Jų metodui reikia kelių sekundžių serverio apdorojimo laiko vienai užklausai atlikti ir mažiau nei 10 megabaitų ryšio tarp kliento ir serverių, net jei duomenų bazėse buvo daugiau nei 10 milijonų elementų. Priešingai, kitiems saugiems metodams gali prireikti gigabaitų ryšio arba valandų skaičiavimo laiko. Kiekvienos užklausos atveju jų metodas pasiekė didesnį nei 95 proc. tikslumą (tai reiškia, kad beveik kiekvieną kartą buvo randamas tikrasis apytikslis artimiausias užklausos taško kaimynas).
Jų naudoti metodai, leidžiantys užtikrinti duomenų bazės privatumą, sutrukdys piktavališkam klientui, net jei jis siunčia melagingas užklausas, siekdamas apgaule priversti serverį nutekinti informaciją
„Piktavališkas klientas nesužinos daug daugiau informacijos nei sąžiningas klientas, besilaikantis protokolo. Tai apsaugo ir nuo piktavališkų serverių. Jei vienas jų nukrypsta nuo protokolo, gali negauti tinkamo rezultato, bet jie niekada nesužinos, kokia buvo kliento užklausa”, – sako Langovskis
Ateityje tyrėjai planuoja pakoreguoti protokolą taip, kad jis galėtų išsaugoti privatumą naudojant tik vieną serverį. Tai leistų jį taikyti daugiau realių situacijų, nes duomenų bazei valdyti nereikėtų dviejų nesusijusių subjektų (kurie tarpusavyje nesidalija informacija).
„Artimiausių kaimynų paieška yra daugelio svarbių mašininio mokymosi valdomų taikomųjų programų pagrindas, pradedant turinio rekomendacijų teikimu vartotojams ir baigiant medicininių būklių klasifikavimu. Tačiau paprastai reikia dalytis daugybe duomenų su centrine sistema, kad būtų galima juos apibendrinti ir sudaryti sąlygas paieškai”, – sako „Capital One” taikomųjų mašininio mokymosi tyrimų vadovas Bayanas Brussas, kuris šiame darbe nedalyvavo. „Šis tyrimas yra svarbus žingsnis siekiant užtikrinti, kad naudotojas gautų artimiausių kaimynų paieškos naudą ir kartu būtų tikras, kad centrinė sistema nenaudos jo duomenų kitais tikslais.”

