Kreditas: Unsplash/CC0 viešasis domenas Šių metų pradžioje „ChatGPT“ buvo trumpam uždrausta Italijoje dėl įtariamo privatumo pažeidimo. Siekdama panaikinti draudimą, pokalbių roboto pagrindinė įmonė „OpenAI“ įsipareigojo suteikti piliečiams galimybę prieštarauti jų asmens duomenų naudojimui dirbtinio intelekto (AI) modeliams lavinti.
Teisės būti pamirštam (RTBF) įstatymas vaidina svarbų vaidmenį kai kurių šalių privatumo internete teisėse. Tai suteikia asmenims teisę prašyti technologijų įmonių ištrinti jų asmens duomenis. Jis buvo nustatytas 2014 m., kai Europos Sąjungoje (ES) buvo svarbios paieškos sistemos.
Bet kai pilietis nesutinka, kad jo asmens duomenys būtų naudojami AI mokymuose, kas bus toliau? Pasirodo, tai nėra taip paprasta.
Mūsų kibernetinio saugumo tyrinėtojas Thierry Rakotoarivelo yra neseniai paskelbto darbo apie mašinų mokymąsi bendraautorius. arXiv išankstinio spausdinimo serveris. Jis paaiškina, kad taikyti RTBF dideliems kalbų modeliams (LLM), pvz., ChatGPT, yra daug sunkiau nei paieškos sistemoms.
„Jei pilietis prašo, kad jo asmens duomenys būtų pašalinti iš paieškos sistemos, atitinkami tinklalapiai gali būti pašalinti ir pašalinti iš paieškos rezultatų“, – sakė Rakotoarivelo.
„LLM tai sudėtingiau, nes jie neturi galimybės saugoti konkrečių asmens duomenų ar dokumentų ir negali gauti arba pamiršti konkrečios informacijos pagal komandą.
Taigi, kaip veikia LLM?
LLM generuoja atsakymus pagal modelius, kuriuos mokymo proceso metu išmoko iš didelio duomenų rinkinio.
„Jie neieško internete ir neindeksuoja svetainių, kad surastų atsakymus. Vietoj to, jie numato kitą atsakymo žodį pagal užklausos pateiktą kontekstą, šablonus ir žodžių ryšius“, – sakė Rakotoarivelo.
Kitas mūsų pirmaujančių kibernetinio saugumo tyrinėtojų Davidas Zhangas yra pirmasis knygos „Teisė būti pamirštam didelių kalbų modelių eroje: pasekmės, iššūkiai ir sprendimai“ autorius. Jis turi puikią analogiją, kaip žmonės naudoja mokymosi duomenis, kuriuos jie išmoko ir kalbai generuoti.
„Kaip australai gali numatyti, kad po „Aussie, Aussie, Aussie“ ateis „oi, oi, oi“, remiantis tarptautinių sporto rungtynių treniruočių duomenimis, taip ir LLM naudoja savo treniruočių duomenis, kad nuspėtų, ką sakyti toliau“, – sakė Zhang. .
„Jų tikslas yra sukurti į žmogų panašų tekstą, kuris atitiktų klausimą ir būtų prasmingas. Tokiu būdu LLM yra labiau panašus į teksto generatorių, o ne į paieškos variklį. Jo atsakymai nėra gaunami iš duomenų bazės, kurioje galima ieškoti, o generuojami remiantis. savo išmoktomis žiniomis“.
Ar dėl to LLM haliucinuoja?
Kai LLM pateikia neteisingus atsakymus į raginimus, sakoma, kad tai „haliucinuoja“. Tačiau Zhang sako, kad LLM viską daro haliucinacijos.
„Haliucinacijos nėra didelių kalbų modelių klaida, o funkcija, pagrįsta jų dizainu”, – sakė Zhang.
„Jie taip pat neturi prieigos prie duomenų realiuoju laiku arba atnaujinimų, paskelbtų treniruočių pabaigoje, todėl gali būti generuojama pasenusi arba neteisinga informacija.
Kaip galime priversti LLM pamiršti?
Mašininio mokymosi pašalinimas yra šiuo metu pirmaujanti programa, leidžianti LLM pamiršti treniruočių duomenis, tačiau tai sudėtinga. Tiesą sakant, toks sudėtingas, kad „Google“ metė iššūkį tyrėjams visame pasaulyje, siekdama patobulinti šį sprendimą.
Vienas iš mašininio mokymosi būdų pašalina tikslius duomenų taškus iš modelio, pagreitindamas konkrečių modelio dalių perkvalifikavimą. Taip išvengiama viso modelio perkvalifikavimo, o tai brangu ir užima daug laiko. Tačiau pirmiausia turite išsiaiškinti, kurias modelio dalis reikia iš naujo apmokyti, o šis segmentuotas metodas gali sukelti sąžiningų problemų, pašalindamas potencialiai svarbius duomenų taškus.
Kiti metodai apima apytikslius metodus, kaip patikrinti, ištrinti ir užkirsti kelią duomenų pablogėjimui bei priešingoms atakoms prieš algoritmus. Zhangas ir jo kolegos siūlo keletą juostos pagalbos metodų, įskaitant modelio redagavimą, kad būtų galima greitai pataisyti modelį, kol kuriamas geresnis pataisymas arba mokomas naujas modelis su pakeistu duomenų rinkiniu.
Savo darbe tyrėjai pasitelkia protingą raginimą, kad modelis pamirštų garsųjį skandalą, primindamas, kad informacijai taikoma teisė būti pamirštam.
Atvejis, kurį reikia prisiminti ir mokytis iš klaidų
Duomenų privatumo problemų, kurios ir toliau kelia problemų LLM, būtų buvę galima išvengti, jei atsakingos AI kūrimo koncepcijos būtų įtrauktos per visą įrankio gyvavimo ciklą.
Dauguma gerai žinomų LLM rinkoje yra „juodosios dėžės“. Kitaip tariant, jų vidinis veikimas ir tai, kaip jie pasiekia rezultatus ar sprendimus, vartotojams nepasiekiami. Paaiškinamas AI aprašo modelius, kuriuose sprendimų priėmimo procesus gali atsekti ir suprasti žmonės (priešinga „juodajai dėžei“ AI).
Tinkamai naudojami paaiškinami AI ir atsakingi AI metodai gali padėti suprasti pagrindines bet kokių modelių problemų priežastis (nes kiekvienas veiksmas yra paaiškinamas), o tai padeda rasti ir pašalinti problemas. Naudodami šiuos ir kitus AI etikos principus kuriant naujas technologijas, galime padėti įvertinti, ištirti ir sušvelninti šias problemas.
Daugiau informacijos: Youyang Qu et al, Learn to Unlearn: A Survey on Machine Unlearning, arXiv (2023). DOI: 10.48550/arxiv.2305.07512
Žurnalo informacija: arXiv
Citata: teisė būti pamirštam dirbtinio intelekto amžiuje (2023 m. rugsėjo 12 d.), gauta 2023 m. rugsėjo 12 d. iš https://techxplore.com/news/2023-09-forgotten-age-ai.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.