Aiškinimo metodai, padedantys vartotojams suprasti mašininio mokymosi modelius ir jais pasitikėti, dažnai apibūdina, kiek tam tikros modelyje naudojamos savybės prisideda prie jo prognozavimo. Pavyzdžiui, jei modelis prognozuoja paciento riziką susirgti širdies ligomis, gydytojas gali norėti žinoti, kokią didelę įtaką šiai prognozei turi paciento širdies ritmo duomenys.
Tačiau jei tos savybės yra tokios sudėtingos ar painios, kad vartotojas jų nesupranta, ar paaiškinimo metodas yra naudingas?
MIT tyrėjai siekia pagerinti savybių aiškinamumą, kad sprendimų priėmėjams būtų patogiau naudotis mašininio mokymosi modelių rezultatais. Remdamiesi daugelį metų trukusiu praktiniu darbu, jie sukūrė taksonomiją, padedančią kūrėjams kurti funkcijas, kurios bus lengviau suprantamos tikslinei auditorijai.
„Nustatėme, kad realiame pasaulyje, nors ir naudojome moderniausius mašininio mokymosi modelių aiškinimo būdus, vis tiek daug painiavos kilo dėl funkcijų, o ne dėl paties modelio”, – sako elektros inžinerijos ir informatikos doktorantė Aleksandra Zytek (Alexandra Zytek), taksonomiją pristatančio straipsnio pagrindinė autorė.
Siekdami sukurti taksonomiją, tyrėjai apibrėžė savybes, dėl kurių savybes gali aiškinti penkių tipų naudotojai – nuo dirbtinio intelekto ekspertų iki žmonių, kuriuos paveikia mašininio mokymosi modelio prognozė. Jie taip pat pateikia instrukcijas, kaip modelių kūrėjai gali paversti savybes į formatus, kuriuos nespecialistams bus lengviau suprasti.
Jie tikisi, kad jų darbas įkvėps modelių kūrėjus apsvarstyti galimybę naudoti aiškinamuosius požymius nuo pat kūrimo proceso pradžios, o ne bandyti dirbti atgaline tvarka ir dėmesį aiškinamumui skirti vėliau.
MIT bendraautoriai: Dongyu Liu, doktorantas, vizituojanti profesorė Laure Berti-Équille, IRD tyrimų direktorė, ir vyresnysis autorius Kalyan Veeramachaneni, Informacijos ir sprendimų sistemų laboratorijos (LIDS) vyriausiasis mokslo darbuotojas ir grupės „Duomenys dirbtiniam intelektui” vadovas. Prie jų prisijungė Ignacio Arnaldo, „Corelight” vyriausiasis duomenų mokslininkas. Tyrimai paskelbti asociacijos „Association for Computing Machinery Special Interest Group on Knowledge Discovery and Data Mining” recenzuojamame birželio mėnesio leidinyje Explorations Newsletter.
Realaus pasaulio pamokos
Požymiai – tai įvesties kintamieji, kuriais aprūpinami mašininio mokymosi modeliai; paprastai jie imami iš duomenų rinkinio stulpelių. Duomenų tyrėjai paprastai atrenka ir rankomis kuria modelio požymius ir daugiausia dėmesio skiria tam, kad požymiai būtų sukurti siekiant pagerinti modelio tikslumą, o ne tam, ar sprendimų priėmėjas gali juos suprasti, aiškina Veeramachaneni
Kelerius metus jis ir jo komanda dirbo su sprendimų priėmėjais, siekdami nustatyti mašininio mokymosi patogumo problemas. Šie srities ekspertai, kurių dauguma neturi mašininio mokymosi žinių, dažnai nepasitiki modeliais, nes nesupranta savybių, kurios daro įtaką prognozėms.
Vykdydami vieną projektą, jie bendradarbiavo su ligoninės intensyviosios terapijos skyriaus gydytojais, kurie naudojo mašininį mokymąsi, kad nuspėtų riziką, jog pacientui po širdies operacijos kils komplikacijų. Kai kurie požymiai buvo pateikti kaip apibendrintos reikšmės, pavyzdžiui, paciento širdies ritmo kitimo tendencija per tam tikrą laiką. Nors taip užkoduotos funkcijos buvo „paruoštos modeliui” (modelis galėjo apdoroti duomenis), gydytojai nesuprato, kaip jos buvo apskaičiuotos. Jie mieliau matytų, kaip šios apibendrintos funkcijos susijusios su pradinėmis reikšmėmis, kad galėtų nustatyti paciento širdies ritmo anomalijas, sako Liu.
Priešingai, mokymosi mokslininkų grupė pirmenybę teikė apibendrintoms funkcijoms. Užuot turėję tokią funkciją kaip „mokinio pranešimų skaičius diskusijų forumuose”, jie mieliau rinktųsi susijusias funkcijas, sugrupuotas ir pažymėtas jiems suprantamais terminais, pavyzdžiui, „dalyvavimas”
. „Kalbant apie aiškinimą, vienas dydis netinka visiems. Kai pereinate iš vienos srities į kitą, poreikiai skiriasi. Ir pats aiškinamumas turi daug lygių”, – sako Veeramachaneni.
Idėja, kad vienas dydis netinka visiems, yra tyrėjų taksonomijos raktas. Jie apibrėžia savybes, dėl kurių požymiai gali būti daugiau ar mažiau interpretuojami skirtingiems sprendimų priėmėjams, ir nurodo, kurios savybės gali būti svarbiausios konkretiems naudotojams
Pavyzdžiui, mašininio mokymosi kūrėjai gali sutelkti dėmesį į tai, kad požymiai būtų suderinami su modeliu ir prognozuojami, t. y. tikimasi, kad jie pagerins modelio veikimą.
Kita vertus, sprendimų priėmėjams, neturintiems mašininio mokymosi patirties, gali būti naudingesnės funkcijos, kurios yra žmogiškai suprantamos, t. y. aprašytos vartotojams natūraliu būdu, ir suprantamos, t. y. nurodančios realaus pasaulio rodiklius, apie kuriuos vartotojai gali samprotauti.
„Taksonomija sako, kad jei jūs kuriate interpretuojamas funkcijas, kokiu lygiu jos yra interpretuojamos? Priklausomai nuo to, su kokio tipo srities ekspertais dirbate, jums gali neprireikti visų lygių”, – sako Zytekas.
Pirmiausia interpretuojamumas
Tyrėjai taip pat aprašo požymių inžinerijos metodus, kuriuos kūrėjas gali taikyti, kad požymiai būtų aiškiau interpretuojami konkrečiai auditorijai.
Požymių inžinerija – tai procesas, kurio metu duomenų mokslininkai transformuoja duomenis į formatą, kurį gali apdoroti mašininio mokymosi modeliai, naudodami tokius metodus, kaip duomenų agregavimas ar reikšmių normalizavimas. Dauguma modelių taip pat negali apdoroti kategorinių duomenų, jei jie nėra konvertuojami į skaitmeninį kodą. Šių transformacijų neprofesionalams dažnai beveik neįmanoma išaiškinti.
Pasak Zytek, kuriant aiškinamus požymius gali tekti panaikinti kai kuriuos iš šių kodų. Pavyzdžiui, įprastu požymių inžinerijos metodu duomenų intervalai sutvarkomi taip, kad visuose juose būtų tas pats metų skaičius. Kad šiuos požymius būtų galima aiškiau interpretuoti, amžiaus intervalus būtų galima sugrupuoti naudojant žmogiškus terminus, pavyzdžiui, kūdikis, mažylis, vaikas ir paauglys. Liu priduria, kad užuot naudojus transformuotą požymį, pavyzdžiui, vidutinį pulso dažnį, interpretuojamas požymis galėtų būti tiesiog faktiniai pulso dažnio duomenys.
„Daugelyje sričių kompromisas tarp interpretuojamų požymių ir modelio tikslumo iš tikrųjų yra labai mažas. Pavyzdžiui, kai dirbome su vaikų gerovės tikrintojais, perkvalifikavome modelį naudodami tik tas savybes, kurios atitiko mūsų interpretuojamumo apibrėžimus, ir našumas sumažėjo beveik nežymiai”, – sako Zytekas.
Remdamiesi šiuo darbu, tyrėjai kuria sistemą, leidžiančią modelio kūrėjui efektyviau tvarkyti sudėtingas savybių transformacijas ir kurti į žmogų orientuotus mašininio mokymosi modelių paaiškinimus. Ši naujoji sistema taip pat konvertuos algoritmus, skirtus modeliams paaiškinti paruoštus duomenų rinkinius, į sprendimų priėmėjams suprantamus formatus