Dirbtinio intelekto sistema gali sutrikti, jei priešas randa būdą supainioti savo sprendimų priėmimą. Šiame pavyzdyje klaidingas ženklinimas kelyje klaidina automobilį be vairuotojo, todėl jis gali pasukti į priešpriešinį eismą. Ši „vengimo“ ataka yra viena iš daugelio priešiškų taktikų, aprašytų naujame NIST leidinyje, skirta padėti apibūdinti atakų tipus, kurių galime tikėtis, ir būdus jas sušvelninti. Kreditas: N. Hanacek/NIST Priešininkai gali sąmoningai supainioti ar net „nuodyti“ dirbtinio intelekto (AI) sistemas, kad jos netinkamai veiktų – ir nėra patikimos apsaugos, kurią galėtų panaudoti jų kūrėjai. Nacionalinio standartų ir technologijų instituto (NIST) kompiuterių mokslininkai ir jų bendradarbiai naujame leidinyje nustato šiuos ir kitus AI ir mašininio mokymosi (ML) pažeidžiamumus.
Jų darbas, pavadintas Adversarial Machine Learning: A Taxonmy and Terminology of Ataks and Mitigations, yra dalis NIST platesnių pastangų remti patikimo AI kūrimą ir gali padėti praktiškai pritaikyti NIST AI rizikos valdymo sistemą. Šis leidinys, bendradarbiaujant vyriausybei, akademinei bendruomenei ir pramonei, yra skirtas padėti AI kūrėjams ir naudotojams suprasti, kokių atakų jie gali tikėtis, ir būdus jas sušvelninti – suprantant, kad nėra jokios sidabrinės kulkos.
„Mes pateikiame atakų metodų ir metodikų, kuriuose atsižvelgiama į visų tipų dirbtinio intelekto sistemas, apžvalgą“, – sakė NIST kompiuterių mokslininkas Apostol Vassilev, vienas iš leidinio autorių. „Mes taip pat aprašome dabartines mažinimo strategijas, apie kurias pranešta literatūroje, tačiau šiuo metu šios turimos apsaugos priemonės neturi tvirtų garantijų, kad jos visiškai sumažins riziką. Raginame bendruomenę sugalvoti geresnes apsaugos priemones.”
Dirbtinio intelekto sistemos persmelkė šiuolaikinę visuomenę ir dirba įvairiais pajėgumais: nuo transporto priemonių vairavimo iki pagalbos gydytojams diagnozuoti ligas iki bendravimo su klientais kaip internetiniai pokalbių robotai. Norėdami išmokti atlikti šias užduotis, jie mokomi naudotis didžiuliu duomenų kiekiu: autonominei transporto priemonei gali būti rodomi greitkelių ir gatvių vaizdai su kelio ženklais, pavyzdžiui, o pokalbių robotas, pagrįstas didelės kalbos modeliu (LLM), gali būti veikiamas internetinių pokalbių įrašai. Šie duomenys padeda AI numatyti, kaip reaguoti tam tikroje situacijoje.
Viena iš pagrindinių problemų yra ta, kad patys duomenys gali būti nepatikimi. Jos šaltiniai gali būti svetainės ir bendravimas su visuomene. Blogiems veikėjams yra daug galimybių sugadinti šiuos duomenis – tiek AI sistemos mokymo laikotarpiu, tiek vėliau, o AI toliau tobulina savo elgesį sąveikaudamas su fiziniu pasauliu. Dėl to AI gali veikti nepageidaujamai. Pavyzdžiui, pokalbių robotai gali išmokti reaguoti įžeidžiančiais ar rasistiniais žodžiais, kai jų apsauginiai turėklai apeina kruopščiai parengtus kenkėjiškus raginimus.
„Dažniausiai programinės įrangos kūrėjams reikia daugiau žmonių, kurie naudotųsi jų produktu, kad jis būtų geresnis, kai jis bus rodomas“, – sakė Vassilev. „Tačiau nėra jokios garantijos, kad ekspozicija bus gera. Pokalbių robotas gali išspjauti blogą ar toksišką informaciją, kai paraginamas kruopščiai sukurta kalba.”
Iš dalies dėl to, kad dirbtinio intelekto mokymui naudojami duomenų rinkiniai yra per dideli, kad žmonės galėtų sėkmingai stebėti ir filtruoti, kol kas nėra patikimo būdo apsaugoti AI nuo klaidingos krypties. Siekiant padėti kūrėjų bendruomenei, naujoje ataskaitoje apžvelgiama, kokių išpuolių gali patirti jos AI produktai, ir atitinkami būdai, kaip sumažinti žalą.
Ataskaitoje nagrinėjami keturi pagrindiniai išpuolių tipai: vengimas, apsinuodijimas, privatumo ir piktnaudžiavimo atakos. Ji taip pat klasifikuoja juos pagal kelis kriterijus, pvz., užpuoliko tikslus ir uždavinius, galimybes ir žinias.
- Vengimo atakos, kurios įvyksta įdiegus AI sistemą, bando pakeisti įvestį, kad pakeistų, kaip sistema į ją reaguoja. Pavyzdžiai galėtų būti stabdymo ženklų pridėjimas, kad autonominė transporto priemonė juos klaidingai suprastų kaip greitį ribojančius ženklus, arba klaidinantis eismo juostų ženklinimas, kad transporto priemonė nukryptų nuo kelio.
- Apsinuodijimo priepuoliai įvyksta treniruočių fazėje, įvedant sugadintus duomenis. Pavyzdys galėtų būti daugybės netinkamos kalbos atvejų įtraukimas į pokalbių įrašus, kad pokalbių robotas šiuos atvejus interpretuotų kaip pakankamai įprastą šneką, kad galėtų naudoti savo sąveikoje su klientais.
- Privatumo atakos, kurios įvyksta diegimo metu, yra bandymai sužinoti neskelbtiną informaciją apie AI arba duomenis, kuriais jis buvo apmokytas, siekiant piktnaudžiauti. Priešas gali užduoti pokalbių robotui daugybę pagrįstų klausimų, o tada panaudoti atsakymus modelio apgręžimui, kad surastų jo silpnąsias vietas arba atspėtų jo šaltinius. Įtraukus nepageidaujamus pavyzdžius prie tų internetinių šaltinių, dirbtinis intelektas gali elgtis netinkamai, o vėliau priversti AI atsisakyti šių konkrečių nepageidaujamų pavyzdžių gali būti sunku.
- Piktnaudžiavimo atakos apima neteisingos informacijos įterpimą į šaltinį, pvz., tinklalapį ar internetinį dokumentą, kurį AI sugeria. Skirtingai nuo pirmiau minėtų apsinuodijimo atakų, piktnaudžiavimo atakomis bandoma AI pateikti neteisingą informaciją iš teisėto, bet pažeisto šaltinio, kad būtų galima pakeisti AI sistemos paskirtį pagal numatytą paskirtį.
„Dauguma šių išpuolių yra gana lengvai surengiami ir reikalauja minimalių AI sistemos žinių bei ribotų priešpriešinių galimybių“, – sakė bendraautorė Alina Oprea, Šiaurės rytų universiteto profesorė. „Pavyzdžiui, apsinuodijimo atakas galima surengti kontroliuojant kelias dešimtis treniruočių pavyzdžių, o tai sudarytų labai mažą procentą viso treniruočių komplekto.
Autoriai, tarp kurių taip pat buvo Robust Intelligence Inc. mokslininkai Alie Fordyce ir Hyrum Anderson, suskirsto kiekvieną iš šių atakų klasių į subkategorijas ir prideda būdus, kaip jas sušvelninti, nors publikacijoje pripažįstama, kad iki šiol dirbtinio intelekto ekspertų sukurtos gynybos priemonės priešpriešinėms atakoms. geriausiu atveju yra neišsamios. Žinojimas apie šiuos apribojimus yra svarbus kūrėjams ir organizacijoms, norinčioms įdiegti ir naudoti AI technologiją, sakė Vassilev.
„Nepaisant didelės pažangos, kurią padarė dirbtinis intelektas ir mašininis mokymasis, šios technologijos yra pažeidžiamos atakoms, kurios gali sukelti įspūdingų gedimų ir baisių pasekmių“, – sakė jis. „Yra teorinių problemų, susijusių su dirbtinio intelekto algoritmų apsauga, kurios tiesiog dar nebuvo išspręstos. Jei kas nors sako kitaip, jie parduoda gyvatės aliejų.”
Daugiau informacijos: Apostol Vassilev ir kt., Priešingas mašininis mokymasis: atakų ir švelninimo taksonomija ir terminija, NIST (2024). DOI: 10.6028/NIST.AI.100-2e2023
Citata: Naujoje ataskaitoje nurodomos kibernetinių atakų, kurios manipuliuoja AI sistemų elgesiu, tipai (2024 m. sausio 4 d.), gauta 2024 m. sausio 5 d. iš https://techxplore.com/news/2024-01-cyberattacks-behavior-ai.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.