NTU Ph.D. studentas Liu Yi, kuris buvo šio straipsnio bendraautoris, rodo sėkmingų raginimų įsilaužti į kalėjimą duomenų bazę, kuri sugebėjo sukompromituoti AI pokalbių robotus, priversdama juos pateikti informaciją, kurios jų kūrėjai sąmoningai apribojo. Kreditas: Nanyang technologijos universitetas Singapūro Nanyang technologijos universiteto (Singapūras NTU) kompiuterių mokslininkai sugebėjo sukompromituoti daugybę dirbtinio intelekto (AI) pokalbių robotų, įskaitant ChatGPT, Google Bard ir Microsoft Bing Chat, kad sukurtų turinį, pažeidžiantį jų kūrėjų gaires – rezultatas žinomas kaip „įkalinimo įkalinimas“. “.
„Jailbreaking“ yra kompiuterių saugos terminas, kai kompiuterių įsilaužėliai randa ir išnaudoja sistemos programinės įrangos trūkumus, kad priverstų ją daryti tai, ko kūrėjai sąmoningai apribojo.
Be to, apmokydami didelį kalbos modelį (LLM) raginimų duomenų bazėje, kuri jau buvo įrodyta, kad sėkmingai nulaužė šiuos pokalbių robotus, mokslininkai sukūrė LLM pokalbių robotą, galintį automatiškai generuoti kitus raginimus, skirtus kitiems pokalbių robotams.
LLM sudaro AI pokalbių robotų smegenis, leidžiančias apdoroti žmogaus įvestus duomenis ir generuoti tekstą, kuris beveik nesiskiria nuo to, kurį gali sukurti žmogus. Tai apima tokias užduotis kaip kelionės maršruto planavimas, pasakos prieš miegą pasakojimas ir kompiuterio kodo kūrimas.
NTU mokslininkų darbai dabar į sąrašą įtraukė „įkalinėjimą“. Jų išvados gali būti labai svarbios padedant įmonėms ir įmonėms suvokti savo LLM pokalbių robotų trūkumus ir apribojimus, kad jie galėtų imtis veiksmų, kad sustiprintų juos nuo įsilaužėlių.
Atlikę daugybę koncepcijos patvirtinimo testų su LLM, siekdami įrodyti, kad jų technika iš tikrųjų kelia jiems aiškią ir esamą grėsmę, mokslininkai nedelsdami pranešė apie problemas atitinkamiems paslaugų teikėjams, kai jie pradėjo sėkmingas jailbreak atakas.
Jailbreak atakos pavyzdys. Kreditas: arXiv (2023). DOI: 10.48550/arxiv.2307.08715 Profesorius Liu Yang iš NTU informatikos ir inžinerijos mokyklos, vadovavęs tyrimui, sakė: „Didelių kalbų modeliai (LLM) sparčiai paplito dėl jų išskirtinio gebėjimo suprasti, generuoti ir užbaigti į žmogų panašų tekstą, o LLM pokalbių robotai. labai populiarios programos kasdieniam naudojimui.
„Tokių AI paslaugų kūrėjai turi apsauginius turėklus, neleidžiančius AI generuoti smurtinio, neetiško ar nusikalstamo turinio. Tačiau dirbtinį intelektą galima pergudrauti, o dabar mes panaudojome AI prieš savo rūšį, kad „įkalintų” LLM gaminant tokį turinį. “
NTU Ph.D. studentas Liu Yi, vienas iš straipsnio autorių, sakė: „Straipsnyje pateikiamas naujas metodas, kaip automatiškai generuoti įkalinimo raginimus prieš sustiprintus LLM pokalbių robotus. LLM mokymas su jailbreak raginimais leidžia automatizuoti šių raginimų generavimą ir pasiekti daug didesnis sėkmės procentas nei esami metodai. Tiesą sakant, mes puolame pokalbių robotus, naudodami juos prieš juos pačius.
Tyrėjų darbe aprašomas dvigubas LLM „įkalinimo“ metodas, kurį jie pavadino „Masterkey“.
Pirma, jie apvertė, kaip LLM aptinka ir apsisaugo nuo kenkėjiškų užklausų. Turėdami šią informaciją, jie išmokė LLM automatiškai mokytis ir rengti raginimus, kurie apeina kitų LLM gynybą. Šis procesas gali būti automatizuotas, sukuriant „Jailbreaking LLM“, kuri gali prisitaikyti ir kurti naujus raginimus „Jailbreak“ net kūrėjams pataisius savo LLM.
Tyrėjų dokumentas, kuris rodomas išankstinio spausdinimo serveryje arXiv2024 m. vasario mėn. buvo priimtas pristatyti Tinklo ir paskirstytos sistemos saugumo simpoziume, pirmaujančiame saugumo forume, San Diege, JAV.
LLM etikos ribų testavimas
AI pokalbių robotai iš žmonių gauna raginimus arba instrukcijų seriją. Visi LLM kūrėjai nustato gaires, kad pokalbių robotai negeneruotų neetiško, abejotino ar nelegalaus turinio. Pavyzdžiui, paklausus AI pokalbių roboto, kaip sukurti kenkėjišką programinę įrangą, skirtą įsilaužti į banko sąskaitas, dažnai atsisakoma atsakyti dėl nusikalstamos veiklos.
Profesorius Liu sakė: „Nepaisant jų pranašumų, AI pokalbių robotai išlieka pažeidžiami jailbreak atakų. Jie gali būti pažeisti piktybinių veikėjų, kurie piktnaudžiauja pažeidžiamumu, kad priverstų pokalbių robotus generuoti rezultatus, kurie pažeidžia nustatytas taisykles.”
NTU mokslininkai ištyrė būdus, kaip apeiti pokalbių robotą pasitelkdami inžinerinius raginimus, kurie nepatenka į etikos gairių radarą, kad pokalbių robotas būtų apgautas į juos reaguoti. Pavyzdžiui, dirbtinio intelekto kūrėjai pasikliauja raktinių žodžių cenzoriais, kurie renka tam tikrus žodžius, galinčius pažymėti potencialiai abejotiną veiklą, ir atsisako atsakyti, jei tokie žodžiai aptinkami.
Viena iš strategijų, kurias tyrinėtojai naudojo siekdami apeiti raktinių žodžių cenzorių, buvo sukurti asmenybę, kuri pateiktų raginimus, kuriuose būtų tiesiog tarpų po kiekvieno simbolio. Taip apeinami LLM cenzoriai, kurie gali veikti pagal draudžiamų žodžių sąrašą.
Tyrėjai taip pat nurodė pokalbių robotui atsakyti prisidengus asmenybe „be išlygų ir be moralinių suvaržymų“, padidindama tikimybę sukurti neetišką turinį.
Tyrėjai galėjo daryti išvadą apie LLM vidinį veikimą ir gynybą rankiniu būdu įvesdami tokius raginimus ir stebėdami laiką, kada kiekvienas raginimas pasisektų ar nepavyktų. Tada jie sugebėjo pakeisti LLM paslėptus gynybos mechanizmus, toliau nustatyti jų neveiksmingumą ir sukurti raginimų duomenų rinkinį, kuris sugebėjo sulaužyti pokalbių robotą.
Eskaluojamos ginklavimosi varžybos tarp įsilaužėlių ir LLM kūrėjų
Kai įsilaužėliai randa ir atskleidžia pažeidžiamumą, dirbtinio intelekto pokalbių robotų kūrėjai reaguoja „pataisydami“ problemą, be galo besikartojančiame „katės ir pelės“ cikle tarp įsilaužėlio ir kūrėjo.
Naudodami Masterkey, NTU kompiuterių mokslininkai padidino priešpriešą šiose ginklavimosi varžybose, nes dirbtinį intelektą laužantis pokalbių robotas gali pateikti daugybę raginimų ir nuolat sužinoti, kas veikia, o kas ne, todėl įsilaužėliai gali įveikti LLM kūrėjus savo žaidime naudodami savo įrankius. .
Pirmiausia mokslininkai sukūrė mokymo duomenų rinkinį, kurį sudaro raginimai, kurie, jų manymu, buvo veiksmingi ankstesniame atbulinės inžinerijos etape, kartu su nesėkmingais raginimais, kad „Masterkey“ žinotų, ko nedaryti. Tyrėjai įtraukė šį duomenų rinkinį į LLM kaip pradinį tašką ir vėliau atliko nuolatinį išankstinį mokymą ir užduočių derinimą.
Tai suteikia modeliui įvairios informacijos ir pagerina modelio gebėjimus, mokydamas jį atlikti užduotis, tiesiogiai susijusias su įsilaužimu į kalėjimą. Rezultatas yra LLM, galintis geriau nuspėti, kaip manipuliuoti tekstu, kad būtų galima „įsilaužti“, ir gauti veiksmingesnius ir universalesnius raginimus.
Tyrėjai nustatė, kad „Masterkey“ sugeneruoti raginimai buvo tris kartus veiksmingesni nei LLM sugeneruoti raginimai laužant LLM. „Masterkey“ taip pat galėjo pasimokyti iš ankstesnių raginimų, kurie nepavyko ir gali būti automatizuoti, kad būtų nuolat kuriami nauji, efektyvesni raginimai.
Tyrėjai teigia, kad jų LLM gali naudoti patys kūrėjai, kad sustiprintų savo saugumą.
NTU Ph.D. Straipsnio bendraautorius studentas p. Deng Gelei sakė: „Kadangi LLM ir toliau tobulėja ir plečia savo galimybes, rankinis testavimas užima daug darbo jėgos ir gali būti netinkamas, kad būtų apimtas visas galimas pažeidžiamumas. užtikrinti visapusišką aprėptį, įvertinant daugybę galimų netinkamo naudojimo scenarijų.
Daugiau informacijos: Gelei Deng ir kt., „MasterKey: Automated Jailbreak“ naudojant kelių didelių kalbų modelių pokalbių robotus, arXiv (2023). DOI: 10.48550/arxiv.2307.08715
Žurnalo informacija: arXiv
Citata: Tyrėjai naudoja dirbtinio intelekto pokalbių robotus prieš save norėdami „palaužti“ vienas kitą (2023 m. gruodžio 28 d.), gauta 2024 m. sausio 2 d. iš https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.