Šiuolaikiniai mašininio mokymosi modeliai, pavyzdžiui, neuroniniai tinklai, dažnai vadinami „juodosiomis dėžėmis”, nes yra tokie sudėtingi, kad net juos kuriantys tyrėjai negali iki galo suprasti, kaip jie daro prognozes.
Siekdami pateikti tam tikrų įžvalgų, tyrėjai taiko paaiškinimo metodus, kuriais siekiama aprašyti atskirus modelio sprendimus. Pavyzdžiui, jie gali išskirti filmo recenzijoje esančius žodžius, kurie turėjo įtakos modelio sprendimui, kad recenzija buvo teigiama.
Tačiau šie paaiškinimo metodai nieko gero neduoda, jei žmonės negali jų lengvai suprasti arba net neteisingai supranta. Taigi MIT tyrėjai sukūrė matematinę sistemą, skirtą formaliai kiekybiškai įvertinti ir įvertinti mašininio mokymosi modelių paaiškinimų suprantamumą. Tai gali padėti nustatyti įžvalgas apie modelio elgseną, kurios gali būti praleistos, jei tyrėjas, bandydamas suprasti visą modelį, įvertina tik keletą atskirų paaiškinimų
. „Naudodami šią sistemą galime labai aiškiai matyti ne tik tai, ką žinome apie modelį iš šių vietinių paaiškinimų, bet, dar svarbiau, ko apie jį nežinome, – sako Kompiuterių inžinerijos ir dirbtinio intelekto laboratorijos (CSAIL) elektros inžinerijos ir informatikos magistrantas Yilun Zhou, pagrindinis šią sistemą pristatančio straipsnio autorius.
Zhou bendraautoriai yra „Microsoft Research” vyresnysis tyrėjas Marco Tulio Ribeiro ir vyresnioji autorė Julie Shah, aeronautikos ir astronautikos profesorė ir CSAIL Interaktyvios robotikos grupės direktorė. Tyrimas bus pristatytas Kompiuterinės lingvistikos asociacijos Šiaurės Amerikos skyriaus konferencijoje.
Vietinių paaiškinimų supratimas
Vienas iš būdų suprasti mašininio mokymosi modelį – rasti kitą modelį, kuris imituoja jo prognozes, bet naudoja skaidrius samprotavimo modelius. Tačiau naujausi neuroninių tinklų modeliai yra tokie sudėtingi, kad šis metodas dažniausiai nepasiteisina. Vietoj to tyrėjai griebiasi vietinių paaiškinimų, kuriuose daugiausia dėmesio skiriama atskiriems įvesties duomenims. Dažnai šiuose paaiškinimuose išryškinami tekste esantys žodžiai, kad būtų pažymėta jų svarba vienai modelio padarytai prognozei
Tada žmonės netiesiogiai apibendrina šiuos vietinius paaiškinimus bendrai modelio elgsenai. Kas nors gali pastebėti, kad vietinio paaiškinimo metodas išryškino teigiamus žodžius (pavyzdžiui, „įsimintinas”, „nepriekaištingas” arba „žavus”) kaip turinčius didžiausią įtaką, kai modelis nusprendė, kad filmo apžvalga yra teigiamos nuotaikos. Tuomet jis gali manyti, kad visi teigiami žodžiai teigiamai prisideda prie modelio prognozių, tačiau taip gali būti ne visada, sako Zhou.
Tyrėjai sukūrė sistemą, vadinamą ExSum (sutrumpintai – paaiškinimų santrauka), kuri tokius teiginius formalizuoja į taisykles, kurias galima patikrinti naudojant kiekybinius rodiklius. ExSum vertina taisyklę pagal visą duomenų rinkinį, o ne tik pagal vieną atvejį, kuriam ji sudaryta
Naudodamasis grafine vartotojo sąsaja, asmuo rašo taisykles, kurias vėliau galima koreguoti, derinti ir vertinti. Pavyzdžiui, tiriant modelį, kuris mokosi klasifikuoti filmų recenzijas kaip teigiamas ar neigiamas, galima parašyti taisyklę, kurioje teigiama, kad „neigimo žodžiai turi neigiamą poveikį”, o tai reiškia, kad tokie žodžiai kaip „ne”, „ne” ir „niekas” neigiamai veikia filmų recenzijų nuotaikas.
Naudodamasis ExSum, naudotojas gali patikrinti, ar ši taisyklė pasitvirtino, naudodamas tris konkrečius rodiklius: aprėptį, galiojimą ir aštrumą. Aprėptis parodo, kaip plačiai taisyklė taikoma visame duomenų rinkinyje. Galiojimas parodo, kiek procentų atskirų pavyzdžių atitinka taisyklę. Aštrumas apibūdina taisyklės tikslumą; labai galiojanti taisyklė gali būti tokia bendra, kad ji nenaudinga modeliui suprasti.
Prielaidų tikrinimas
Jei tyrėjas siekia geriau suprasti, kaip elgiasi jo modelis, jis gali naudoti ExSum konkrečioms prielaidoms patikrinti, sako Zhou.
Jei jis įtaria, kad jo modelis yra diskriminacinis lyties atžvilgiu, jis gali sukurti taisykles, kad vyriški įvardžiai turi teigiamą indėlį, o moteriški įvardžiai – neigiamą. Jei šių taisyklių validumas didelis, vadinasi, jos apskritai yra teisingos ir modelis greičiausiai yra šališkas.”
ExSum taip pat gali atskleisti netikėtą informaciją apie modelio elgseną. Pavyzdžiui, vertindami filmų recenzijų klasifikatorių, tyrėjai nustebo pastebėję, kad neigiami žodžiai paprastai turi labiau išreikštą ir aštresnį indėlį į modelio sprendimus nei teigiami žodžiai. Tai gali būti dėl to, kad recenzijų autoriai, kritikuodami filmą, stengiasi būti mandagūs ir ne tokie tiesmuki, aiškina Zhou.
„Norint iš tikrųjų patvirtinti savo supratimą, reikia daug griežčiau įvertinti šiuos teiginius daugeliu atvejų. Tokio supratimo tokiu smulkiu lygmeniu, kiek mums žinoma, ankstesniuose darbuose dar nebuvo atskleista”, – sako jis.”
„Perėjimas nuo vietinių paaiškinimų prie visuotinio supratimo buvo didelė literatūros spraga. ExSum yra geras pirmas žingsnis užpildant šią spragą”, – priduria Ribeiro.
Sistemos išplėtimas
Ateityje Zhou tikisi plėtoti šį darbą, išplėsdamas suprantamumo sąvoką kitais kriterijais ir paaiškinimų formomis, pavyzdžiui, kontrafaktiniais paaiškinimais (kuriuose nurodoma, kaip pakeisti įvestį, kad pasikeistų modelio prognozė). Kol kas jie susitelkė ties požymių priskyrimo metodais, kurie apibūdina atskirus požymius, kuriuos modelis naudojo sprendimui priimti (pavyzdžiui, žodžius filmo recenzijoje).
Be to, jis nori toliau tobulinti sistemą ir naudotojo sąsają, kad žmonės galėtų greičiau kurti taisykles. Taisyklių rašymas gali pareikalauti valandų valandas trunkančio žmogaus darbo – ir tam tikras žmogaus dalyvavimo lygis yra labai svarbus, nes žmonės galiausiai turi sugebėti suprasti paaiškinimus – tačiau dirbtinio intelekto pagalba galėtų supaprastinti šį procesą
Svarstydamas apie ExSum ateitį, Zhou tikisi, kad jų darbas išryškina poreikį pakeisti mokslininkų požiūrį į mašininio mokymosi modelių paaiškinimus
„Iki šio darbo, jei turėjai teisingą vietinį paaiškinimą, viskas buvo baigta. Jūs pasiekėte šventąjį gralį paaiškindami savo modelį. Mes siūlome šį papildomą aspektą – užtikrinti, kad šie paaiškinimai būtų suprantami. Suprantamumas turi būti dar viena mūsų paaiškinimų vertinimo metrika”, – sako Zhou.”
Šį tyrimą iš dalies remia Nacionalinis mokslo fondas

