Išmokytų neuroninių tinklų elgesio paaiškinimas tebėra įtikinamas galvosūkis, ypač augant šių modelių dydžiui ir sudėtingumui. Kaip ir kiti moksliniai iššūkiai per visą istoriją, dirbtinio intelekto sistemų veikimo atvirkštinė inžinerija reikalauja daug eksperimentų: iškelti hipotezes, įsikišti į elgesį ir netgi išskaidyti didelius tinklus, kad būtų galima ištirti atskirus neuronus. Iki šiol dauguma sėkmingų eksperimentų buvo susiję su daugybe žmonių priežiūros. Norint paaiškinti kiekvieną skaičiavimą GPT-4 ir didesnių modelių viduje, beveik neabejotinai reikės daugiau automatizavimo – galbūt net naudojant pačius AI modelius.
Siekiant palengvinti šią savalaikę pastangą, mokslininkai iš MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) sukūrė naują metodą, kuris naudoja AI modelius eksperimentams su kitomis sistemomis atlikti ir jų elgsenai paaiškinti. Jų metodas naudoja agentus, sukurtus iš iš anksto parengtų kalbos modelių, kad pateiktų intuityvius skaičiavimų paaiškinimus apmokytuose tinkluose.
Pagrindinė šios strategijos dalis yra „automatizuotas interpretavimo agentas“ (AIA), sukurtas imituoti mokslininko eksperimentinius procesus. Aiškinamumo agentai planuoja ir atlieka bandymus su kitomis skaičiavimo sistemomis, kurių mastelis gali svyruoti nuo atskirų neuronų iki ištisų modelių, kad pateiktų įvairių formų šių sistemų paaiškinimus: kalbinius aprašymus, ką sistema daro ir kur ji sugenda, ir kodas, atkuriantis sistemos elgesį. Skirtingai nuo esamų interpretavimo procedūrų, kurios pasyviai klasifikuoja ar apibendrina pavyzdžius, AIA aktyviai dalyvauja hipotezių formavime, eksperimentiniame testavime ir kartotiniame mokyme, taip patobulindama savo supratimą apie kitas sistemas realiuoju laiku.
AIA metodą papildo naujas „funkcijų aiškinimo ir aprašymo“ (FIND) etalonas, funkcijų, panašių į apmokytų tinklų skaičiavimus, bandymų lenta ir pridedami jų elgesio aprašymai. Vienas iš pagrindinių iššūkių vertinant realaus pasaulio tinklo komponentų aprašymų kokybę yra tai, kad aprašymai yra tiek pat geri, kiek jų aiškinamoji galia: tyrėjai neturi prieigos prie pagrindinės tiesos. vienetų etiketės arba išmoktų skaičiavimų aprašymai. FIND sprendžia šią ilgalaikę problemą šioje srityje, pateikdama patikimą aiškinamumo procedūrų vertinimo standartą: funkcijų paaiškinimai (pvz., sukurti AIA) gali būti vertinami pagal funkcijų aprašymus etalone.
Pavyzdžiui, FIND yra sintetinių neuronų, skirtų imituoti tikrų neuronų elgseną kalbos modeliuose, kai kurie iš jų yra selektyvūs atskiroms sąvokoms, tokioms kaip „antžeminis transportas“. AIA suteikiama juodoji prieiga prie sintetinių neuronų ir projektavimo įvesties (tokių kaip „medis“, „laimė“ ir „automobilis“), kad būtų galima patikrinti neurono atsaką. Pastebėjęs, kad sintetinis neuronas sukuria didesnes „automobilio“ atsako reikšmes nei kitos įvesties, AIA gali sukurti tikslesnius testus, kad atskirtų neurono selektyvumą automobiliams nuo kitų transporto priemonių, tokių kaip lėktuvai ir laivai. Kai AIA pateikia aprašymą, pvz., „šis neuronas yra selektyvus kelių transportui, o ne kelionėms oru ar jūra“, šis aprašymas įvertinamas pagal pagrindinį sintetinio neurono aprašymą („selektyvus antžeminiam transportui“) FIND. Tada etalonas gali būti naudojamas lyginant AIA galimybes su kitais literatūros metodais.
Sarah Schwettmann PhD ’21, viena iš naujojo darbo autorių ir CSAIL mokslininkė, pabrėžia šio požiūrio pranašumus. „AIA gebėjimas kurti ir tikrinti savarankiškas hipotezes gali atskleisti elgesį, kurį mokslininkams kitu atveju būtų sunku aptikti. Nuostabu, kad kalbiniai modeliai, kuriuose yra kitų sistemų zondavimo įrankiai, gali atlikti tokio tipo eksperimentinį dizainą“, – sako Schwettmann. „Švarūs, paprasti etalonai su atsakymais į tiesą buvo pagrindinė bendresnių kalbos modelių galimybių varomoji jėga, todėl tikimės, kad FIND gali atlikti panašų vaidmenį aiškinamumo tyrimuose.”
Aiškinamumo automatizavimas
Dideli kalbų modeliai vis dar išlaiko savo paklausių technologijų pasaulio įžymybių statusą. Naujausi LLM pažanga išryškino jų gebėjimą atlikti sudėtingas samprotavimo užduotis įvairiose srityse. CSAIL komanda pripažino, kad, atsižvelgiant į šias galimybes, kalbos modeliai gali būti apibendrintų agentų stuburas automatizuotam aiškinimui. „Istoriškai aiškinamumas buvo labai įvairiapusė sritis“, – sako Schwettmann. „Nėra vieno požiūrio, kuris tiktų visiems; dauguma procedūrų yra labai specifinės individualiems klausimams, kuriuos galime turėti apie sistemą, ir individualiems būdams, pvz., vizijai ar kalbai. Taikant esamus atskirų neuronų žymėjimo regėjimo modeliuose metodus, reikėjo mokyti specializuotus žmogaus duomenų modelius, kai šie modeliai atlieka tik šią vienintelę užduotį. Aiškinamumo agentai, sukurti iš kalbų modelių, galėtų suteikti bendrą sąsają kitoms sistemoms paaiškinti – sintezuoti eksperimentų rezultatus, integruoti įvairius būdus, netgi atrasti naujus eksperimentinius metodus labai esminiu lygiu.
Kai patenkame į režimą, kai modeliai, atliekantys aiškinimą, yra patys juodosios dėžės, išoriniai interpretacijos metodų vertinimai tampa vis svarbesni. Naujasis komandos etalonas patenkina šį poreikį naudodamas žinomos struktūros funkcijų rinkinį, kuris yra modeliuojamas pagal elgseną, stebimą laukinėje gamtoje. FIND viduje esančios funkcijos apima daugybę sričių – nuo matematinių samprotavimų iki simbolinių operacijų su stygomis iki sintetinių neuronų, sukurtų iš žodžių lygio užduočių. Interaktyvių funkcijų duomenų rinkinys sukonstruotas procedūriškai; realus sudėtingumas įvedamas į paprastas funkcijas, pridedant triukšmo, komponuojant funkcijas ir imituojant paklaidas. Tai leidžia palyginti interpretuojamumo metodus aplinkoje, kuri reiškia našumą realiame pasaulyje.
Be funkcijų duomenų rinkinio, mokslininkai pristatė naujovišką vertinimo protokolą, skirtą AIA ir esamų automatizuotų interpretavimo metodų efektyvumui įvertinti. Šis protokolas apima du būdus. Atliekant užduotis, kurioms reikia atkartoti funkciją kode, vertinime tiesiogiai lyginami dirbtinio intelekto sugeneruoti įvertinimai ir pradinės pagrindinės tiesos funkcijos. Vertinimas tampa sudėtingesnis užduočių, susijusių su funkcijų aprašymu natūralia kalba, atveju. Tokiais atvejais norint tiksliai įvertinti šių aprašymų kokybę, reikia automatiškai suprasti jų semantinį turinį. Norėdami išspręsti šį iššūkį, mokslininkai sukūrė specializuotą „trečiosios šalies“ kalbos modelį. Šis modelis yra specialiai išmokytas įvertinti AI sistemų pateiktų natūralios kalbos aprašymų tikslumą ir nuoseklumą ir lygina jį su pagrindinės tiesos funkcijos elgesiu.
FIND įgalina vertinimą, atskleidžiantį, kad mes dar toli iki visiško interpretavimo automatizavimo; nors AIA pranoksta esamus aiškinamumo metodus, jie vis tiek nesugeba tiksliai apibūdinti beveik pusės etalono funkcijų. Tamar Rott Shaham, tyrimo bendraautorė ir CSAIL postdoc, pažymi, kad „nors šios kartos AIA efektyviai apibūdina aukšto lygio funkcionalumą, jie vis tiek dažnai nepastebi smulkesnių detalių, ypač funkcijų subdomenuose su triukšmu arba nereguliarus elgesys. Tikėtina, kad taip yra dėl nepakankamo mėginių ėmimo šiose srityse. Viena problema yra ta, kad PIA veiksmingumą gali sumažinti jų pradiniai tiriamieji duomenys. Norėdami to išvengti, bandėme vadovauti AIA tyrinėjimams, inicijuodami jų paiešką naudodami specifines, susijusias įvestis, o tai žymiai padidino interpretacijos tikslumą. Šis metodas sujungia naujus AIA metodus su ankstesniais metodais, naudojant iš anksto apskaičiuotus pavyzdžius interpretavimo procesui pradėti.
Tyrėjai taip pat kuria įrankių rinkinį, skirtą padidinti AIA gebėjimą atlikti tikslesnius neuroninių tinklų eksperimentus tiek juodosios, tiek baltosios dėžutės nustatymuose. Šiuo įrankių rinkiniu siekiama aprūpinti AIA geresnius įvesties atrankos įrankius ir patikslinti hipotezių tikrinimo galimybes, kad būtų galima atlikti niuansesnę ir tikslesnę neuroninio tinklo analizę. Komanda taip pat sprendžia praktinius AI interpretavimo iššūkius, daugiausia dėmesio skirdama tinkamų klausimų, kuriuos reikia užduoti analizuojant modelius pagal realaus pasaulio scenarijus, nustatymą. Jų tikslas yra sukurti automatizuotas aiškinimo procedūras, kurios ilgainiui padėtų žmonėms audito sistemas, pvz., autonominio vairavimo ar veido atpažinimo sistemas, diagnozuoti galimus gedimo būdus, paslėptus paklaidas ar stebinančius veiksmus prieš įdiegiant.
Stebėti stebėtojus
Grupė numato vieną dieną sukurti beveik autonomines AIA, kurios galėtų tikrinti kitas sistemas, o žmonių mokslininkai atliks priežiūrą ir nurodymus. Išplėstiniai AIA gali sukurti naujų eksperimentų ir klausimų, kurie galbūt neapsiriboja pradiniais žmonių mokslininkų svarstymais. Pagrindinis dėmesys skiriamas AI aiškinimo išplėtimui, įtraukiant sudėtingesnį elgesį, pvz., ištisas neuronines grandines ar potinklius, ir įvesties, galinčios sukelti nepageidaujamą elgesį, numatymą. Ši plėtra yra reikšmingas žingsnis į priekį atliekant AI tyrimus, kuriais siekiama, kad AI sistemos būtų suprantamesnės ir patikimesnės.
„Geras etalonas yra galingas įrankis, padedantis įveikti sudėtingus iššūkius“, – sako tyrime nedalyvavęs Harvardo universiteto kompiuterių mokslų profesorius Martinas Wattenbergas. „Nuostabu matyti šį sudėtingą aiškinamumo etaloną, vieną iš svarbiausių šiandienos mašininio mokymosi iššūkių. Mane ypač sužavėjo autorių sukurta automatizuota interpretavimo priemonė. Tai savotiškas interpretacijos džiudžitsu, paverčiantis dirbtinį intelektą į save, kad padėtų žmogui suprasti.
Schwettmann, Rott Shaham ir jų kolegos pristatė savo darbus NeurIPS 2023 gruodžio mėn. Papildomi MIT bendraautoriai, visos CSAIL ir Elektros inžinerijos ir informatikos katedros (EECS) filialai, yra magistrantė Joanna Materzynska, bakalauro studentas Neilas Chowdhury, Shuang Li PhD ’23, docentas Jacobas Andreasas ir profesorius Antonio Torralba. Šiaurės rytų universiteto docentas Davidas Bau yra papildomas bendraautoris.
Darbą iš dalies rėmė MIT-IBM Watson AI Lab, Open Philanthropy, Amazon Research Award, Hyundai NGV, JAV armijos tyrimų laboratorija, JAV nacionalinis mokslo fondas, Zuckerman STEM lyderystės programa ir Viterbi stipendija. .