Šiuolaikiniai mašininio mokymosi modeliai, pvz., neuroniniai tinklai, dažnai vadinami „juodosiomis dėžėmis“, nes jie yra tokie sudėtingi, kad net juos kuriantys tyrėjai negali visiškai suprasti kaip jie daro prognozes.
Siekdami pateikti tam tikrų įžvalgų, mokslininkai naudoja paaiškinimo metodus, kuriais siekiama apibūdinti individualius modelio sprendimus. Pavyzdžiui, jie gali paryškinti žodžius filmo apžvalgoje, kurie turėjo įtakos modelio sprendimui, kad apžvalga buvo teigiama.
Tačiau šie paaiškinimo metodai neduos jokios naudos, jei žmonės negali lengvai suprasti juos suprasti ar net neteisingai suprasti. Taigi, MIT mokslininkai sukūrė matematinę sistemą, skirtą oficialiai kiekybiškai įvertinti ir įvertinti mašininio mokymosi modelių paaiškinimų suprantamumą. Tai gali padėti tiksliai nustatyti modelio elgsenos įžvalgas, kurių galima nepastebėti, jei tyrėjas įvertina tik keletą atskirų paaiškinimų, siekdamas suprasti visą modelį.
„Naudodami šią sistemą galime turėti labai aiškus vaizdas ne tik to, ką mes žinome apie modelį iš šių vietinių paaiškinimų, bet dar svarbiau tai, ko apie jį nežinome“, – sako Yilun Zhou, informatikos ir dirbtinio intelekto elektrotechnikos ir kompiuterių mokslų magistrantė. Laboratorija (CSAIL) ir pagrindinis šią sistemą pristatančio straipsnio autorius.
Tarp Zhou bendraautorių yra Marco Tulio Ribeiro, „Microsoft Research“ vyresnysis mokslo darbuotojas ir vyresnioji autorė Julie Shah, aeronautikos ir astronautikos bei CSAIL Interaktyviosios robotikos grupės direktorius. Tyrimas bus pristatytas Kompiuterinės lingvistikos asociacijos Šiaurės Amerikos skyriaus konferencijoje.
Suprasti vietinius paaiškinimus
Vienas iš būdų suprasti mašininio mokymosi modelį yra rasti kitą modelį, kuris imituotų jo prognozes, bet naudotų skaidrius samprotavimo modelius. Tačiau naujausi neuroninių tinklų modeliai yra tokie sudėtingi, kad šis metodas dažniausiai nepavyksta. Vietoj to, mokslininkai naudojasi vietiniais paaiškinimais, kuriuose daugiausia dėmesio skiriama individualiems įvestims. Dažnai šiuose paaiškinimuose paryškinami žodžiai tekste, kad būtų išreikšta jų svarba vienai modelio prognozei.
Netiesiogiai žmonės apibendrina šiuos vietinius paaiškinimus bendram modelio elgesiui. Kas nors gali pastebėti, kad vietinis paaiškinimo metodas išryškino teigiamus žodžius (pvz., „įsimintinas“, „nepriekaištingas“ ar „žavingas“) kaip įtakingiausius, kai modelis nusprendė, kad filmo apžvalga buvo teigiama. Tada jie greičiausiai manys, kad visi teigiami žodžiai daro teigiamą indėlį į modelio prognozes, tačiau taip gali būti ne visada, sako Zhou.
Tyrėjai sukūrė sistemą, žinomą kaip ExSum. (sutrumpinta paaiškinimo santrauka), kuri įformina tos rūšies pretenzijas į taisykles, kurias galima patikrinti naudojant kiekybiškai įvertinamą metriką. „ExSum“ įvertina taisyklę visame duomenų rinkinyje, o ne tik viename egzemplioriuje, kuriam ji sukurta.
Naudodamas grafinę vartotojo sąsają, asmuo rašo taisykles, kurias vėliau galima koreguoti, derinti, ir įvertino. Pavyzdžiui, tiriant modelį, kuris mokosi klasifikuoti filmų apžvalgas kaip teigiamas ar neigiamas, galima parašyti taisyklę, kuri sako, kad „neigimo žodžiai turi neigiamą reikšmę“, o tai reiškia, kad tokie žodžiai kaip „ne“, „ne“ ir „nieko“. neigiamai atsiliepia filmų apžvalgoms.
Naudodamas ExSum, vartotojas gali pamatyti, ar ši taisyklė galioja, naudodamas tris konkrečias metrikas: aprėptį, galiojimą ir ryškumą. Aprėptis įvertina, kaip plačiai taisyklė taikoma visame duomenų rinkinyje. Galiojimas pabrėžia atskirų pavyzdžių, kurie atitinka taisyklę, procentą. Ryškumas apibūdina taisyklės tikslumą; labai tinkama taisyklė gali būti tokia bendroji, kad ji nėra naudinga norint suprasti modelį.
Testavimo prielaidos
Jei tyrėja siekia giliau suprasti, kaip elgiasi jos modelis, ji gali naudoti ExSum, kad patikrintų konkrečias prielaidas, sako Zhou.
Jei ji įtaria savo modelį yra diskriminuojanti lyties atžvilgiu, ji galėtų sukurti taisykles, kuriose teigiama, kad vyriški įvardžiai turi teigiamą indėlį, o moteriški – neigiamą. Jei šios taisyklės yra labai pagrįstos, tai reiškia, kad apskritai jos yra teisingos ir modelis greičiausiai yra šališkas.
ExSum taip pat gali atskleisti netikėtos informacijos apie modelio elgesį. Pavyzdžiui, vertindami filmų peržiūros klasifikatorių, tyrėjai nustebo pastebėję, kad neigiami žodžiai paprastai turi ryškesnį ir aštresnį indėlį į modelio sprendimus nei teigiami žodžiai. Taip gali nutikti dėl to, kad apžvalgų autoriai, kritikuodami filmą, stengiasi būti mandagūs ir ne tokie atviri, aiškina Zhou.
„Kad tikrai patvirtintumėte savo supratimą, turite daug griežčiau įvertinti šiuos teiginius. daug atvejų. Toks supratimas šiuo smulkiu lygiu, mūsų žiniomis, niekada nebuvo atskleistas ankstesniuose darbuose“, – sako jis.
„Perėjimas nuo vietinių paaiškinimų prie visuotinio supratimo buvo didelė spraga literatūroje. „ExSum“ yra geras pirmasis žingsnis užpildant šią spragą“, – priduria Ribeiro.
Sistemos išplėtimas
Ateityje Zhou tikisi remtis šiuo darbu, išplėsdamas suprantamumo sąvoką į kitus kriterijus ir paaiškinimų formas, pvz., priešpriešinius paaiškinimus (nurodančius, kaip pakeisti įvestį, kad būtų pakeista modelio prognozė). Kol kas jie sutelkė dėmesį į funkcijų priskyrimo metodus, apibūdinančius atskiras savybes, kurias modelis naudojo priimant sprendimą (pvz., žodžius filmo apžvalgoje).
Be to, jis nori toliau patobulinkite sistemą ir vartotojo sąsają, kad žmonės galėtų greičiau kurti taisykles. Taisyklėms rašyti gali prireikti valandų valandų, kai žmogus dalyvauja – o tam tikras žmogaus dalyvavimo lygis yra labai svarbus, nes galiausiai žmonės turi sugebėti suprasti paaiškinimus – tačiau dirbtinio intelekto pagalba galėtų supaprastinti procesą.
Kaip jis svarsto. „ExSum“ ateitis Zhou tikisi, kad jų darbas pabrėžia poreikį pakeisti tyrėjų požiūrį į mašininio mokymosi modelių paaiškinimus.
„Prieš šį darbą, jei turite teisingą vietinį paaiškinimą, padaryta. Jūs pasiekėte šventąjį gralį paaiškindami savo modelį. Siūlome šį papildomą aspektą, siekdami užtikrinti, kad šie paaiškinimai būtų suprantami. Suprantamumas turi būti dar viena mūsų paaiškinimų vertinimo metrika“, – sako Zhou.
Šį tyrimą iš dalies remia Nacionalinis mokslo fondas.

