Kai rizika yra didelė, kartais mašininio mokymosi modeliai naudojami padėti žmonėms, priimantiems sprendimus. Pavyzdžiui, modelis gali numatyti, kurie pretendentai į teisės mokyklą greičiausiai išlaikys advokatūros egzaminą, kad padėtų priėmimo pareigūnui nuspręsti, kuriuos studentus reikėtų priimti
Šie modeliai dažnai turi milijonus parametrų, todėl mokslininkams beveik neįmanoma iki galo suprasti, kaip jie daro prognozes, jau nekalbant apie priėmimo pareigūną, neturintį mašininio mokymosi patirties. Tyrėjai kartais taiko paaiškinimo metodus, kurie imituoja didesnį modelį, kurdami paprastas jo prognozių aproksimacijas. Šios aproksimacijos, kurias kur kas lengviau suprasti, padeda naudotojams nustatyti, ar pasitikėti modelio prognozėmis.
Tačiau ar šie paaiškinimo metodai yra teisingi? Jei paaiškinimo metodas pateikia geresnes aproksimacijas vyrams nei moterims arba baltaodžiams nei juodaodžiams, jis gali paskatinti vartotojus pasitikėti modelio prognozėmis vieniems žmonėms, bet ne kitiems.
MIT tyrėjai atidžiai išnagrinėjo kai kurių plačiai naudojamų paaiškinimo metodų teisingumą. Jie nustatė, kad šių paaiškinimų aproksimacijos kokybė gali smarkiai skirtis priklausomai nuo pogrupių ir kad mažumų pogrupių atstovų aproksimacijos kokybė dažnai būna gerokai prastesnė
Praktiškai tai reiškia, kad jei aproksimacijos kokybė yra prastesnė prašymus pateikusių moterų atžvilgiu, atsiranda paaiškinimų ir modelio prognozių neatitikimas, dėl kurio priėmimo pareigūnas gali neteisingai atmesti daugiau moterų nei vyrų
Kai MIT tyrėjai pamatė, kokie paplitę šie teisingumo skirtumai, jie išbandė keletą metodų, kaip suvienodinti sąlygas. Jiems pavyko sumažinti kai kurias spragas, tačiau jų panaikinti nepavyko.
„Realiame pasaulyje tai reiškia, kad žmonės gali neteisingai pasitikėti vienų pogrupių prognozėmis labiau nei kitų. Taigi, svarbu tobulinti paaiškinimo modelius, tačiau ne mažiau svarbu ir apie šių modelių detales informuoti galutinius vartotojus. Šios spragos egzistuoja, todėl vartotojai gali norėti pakoreguoti savo lūkesčius dėl to, ką jie gauna naudodamiesi šiais paaiškinimais”, – sako pagrindinė autorė Aparna Balagopalan, MIT Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (MIT Computer Science and Artificial Intelligence Laboratory, CSAIL) Sveiko ML grupės magistrantė.
Balagopalan straipsnį parašė kartu su CSAIL magistrantais Haoran Zhang ir Kimia Hamidieh, CSAIL doktorantu Thomasu Hartvigsenu, Toronto universiteto kompiuterių mokslo docentu Franku Rudzicziu ir vyresniąja autore Marzyeh Ghassemi, docente ir „Healthy ML” grupės vadove. Tyrimas bus pristatytas ACM konferencijoje apie sąžiningumą, atskaitomybę ir skaidrumą.
Didelio tikslumo
Supaprastinti paaiškinimo modeliai gali apytiksliai atspindėti sudėtingesnio mašininio mokymosi modelio prognozes žmonėms suprantamu būdu. Veiksmingas paaiškinimo modelis maksimaliai padidina savybę, vadinamą ištikimybe, kuri parodo, kaip gerai jis atitinka didesnio modelio prognozes.
Užuot sutelkę dėmesį į vidutinę viso paaiškinimo modelio ištikimybę, MIT tyrėjai tyrė modelio duomenų rinkinio žmonių pogrupių ištikimybę. Duomenų rinkinyje, kuriame yra vyrų ir moterų, kiekvienos grupės ištikimybė turėtų būti labai panaši, o abiejų grupių ištikimybė turėtų būti artima viso paaiškinimo modelio ištikimybei.
„Kai vertinate tik vidutinę visų atvejų ištikimybę, galite nepastebėti artefaktų, kurie gali būti paaiškinimo modelyje, – sako Balagopalanas.
Jie sukūrė dvi metrikas ištikimybės spragoms arba ištikimybės skirtumams tarp pogrupių matuoti. Vienas iš jų yra skirtumas tarp viso paaiškinimo modelio ištikimybės vidurkio ir blogiausiai besimokančio pogrupio ištikimybės. Pagal antrąjį metodą apskaičiuojamas absoliutus ištikimybės skirtumas tarp visų galimų pogrupių porų ir apskaičiuojamas vidurkis.
Naudodami šiuos rodiklius, jie ieškojo ištikimybės spragų naudodami dviejų tipų paaiškinimo modelius, kurie buvo apmokyti keturiuose realaus pasaulio duomenų rinkiniuose, skirtuose rizikingoms situacijoms, pavyzdžiui, prognozuoti, ar pacientas mirs intensyviosios terapijos skyriuje, ar kaltinamasis vėl nusikalsta, ar kandidatas į teisininkus išlaikys advokatūros egzaminą. Kiekviename duomenų rinkinyje buvo saugomų atributų, pavyzdžiui, atskirų žmonių lyties ir rasės. Saugomi požymiai – tai požymiai, kurių negalima naudoti priimant sprendimus, dažnai dėl įstatymų ar organizacijos politikos. Jų apibrėžtis gali skirtis priklausomai nuo užduoties, būdingos kiekvienai sprendimų priėmimo aplinkai
Tyrėjai nustatė aiškias visų duomenų rinkinių ir paaiškinimo modelių ištikimybės spragas. Nepalankių sąlygų neturinčių grupių atveju ištikimybė dažnai buvo daug mažesnė, kai kuriais atvejais iki 21 proc. Teisės mokyklų duomenų rinkinyje tarp rasinių pogrupių ištikimybės skirtumas siekė 7 procentus, t. y. kai kurių pogrupių aproksimacijos buvo klaidingos vidutiniškai 7 procentais dažniau. Pavyzdžiui, jei duomenų rinkinyje yra 10,000 pareiškėjų iš šių pogrupių, didelė dalis jų gali būti klaidingai atmesta, aiškina Balagopalanas.
„Mane nustebino tai, kaip plačiai šie ištikimybės skirtumai paplitę visuose mūsų vertintuose duomenų rinkiniuose. Sunku pervertinti, kaip dažnai paaiškinimai naudojami kaip „juodosios dėžės” mašininio mokymosi modelių „pataisa”. Šiame darbe mes parodome, kad patys paaiškinimo metodai yra netobuli aproksimacijos, kurios kai kuriems pogrupiams gali būti blogesnės”, – sako Ghassemi.
Spragų mažinimas
Nustatę ištikimybės spragas, tyrėjai išbandė keletą mašininio mokymosi metodų joms ištaisyti. Jie mokė paaiškinimo modelius nustatyti duomenų rinkinio regionus, kuriuose gali būti maža ištikimybė, ir tada daugiau dėmesio skirti tiems pavyzdžiams. Jie taip pat pabandė naudoti subalansuotus duomenų rinkinius su vienodu skaičiumi mėginių iš visų pogrupių.
Šios patikimos mokymo strategijos sumažino kai kurias ištikimybės spragas, tačiau jų nepanaikino.
Tada tyrėjai pakeitė paaiškinimo modelius, kad ištirtų, kodėl ištikimybės spragos apskritai atsiranda. Jų analizė atskleidė, kad paaiškinimo modelis gali netiesiogiai naudoti saugomos grupės informaciją, pavyzdžiui, lytį ar rasę, kurią jis gali sužinoti iš duomenų rinkinio, net jei grupių etiketės yra paslėptos
Šią mįslę jie nori išsamiau ištirti būsimame darbe. Jie taip pat planuoja toliau tirti ištikimybės spragų pasekmes realaus pasaulio sprendimų priėmimo kontekste.
Balagopalan džiaugiasi, kad tuo pat metu nepriklausomoje laboratorijoje atliktame paaiškinimų sąžiningumo darbe prieita prie panašių išvadų, o tai rodo, kaip svarbu gerai suprasti šią problemą.
Žvelgdama į kitą šio tyrimo etapą, ji turi keletą įspėjamųjų žodžių mašininio mokymosi naudotojams.
„Atidžiai rinkitės paaiškinimo modelį. Bet dar svarbiau – gerai apgalvoti paaiškinimo modelio naudojimo tikslus ir tai, ką jis galiausiai paveiks”, – sako ji.
„Manau, kad šis straipsnis yra labai vertingas priedas prie diskusijų apie sąžiningumą ML srityje”, – sako Kšištofas Gajosas (Krzysztof Gajos), Harvardo Johno A. Paulsono inžinerijos ir taikomųjų mokslų mokyklos informatikos profesorius Gordonas Makėjus (Gordon McKay), kuris šiame darbe nedalyvavo. „Man ypač įdomūs ir paveikūs pasirodė pirmieji įrodymai, kad paaiškinimų tikslumo skirtumai gali turėti išmatuojamą poveikį žmonių, kuriems padeda mašininio mokymosi modeliai, priimamų sprendimų kokybei. Nors apskaičiuotas sprendimų kokybės skirtumas gali atrodyti nedidelis (apie 1 procentinį punktą), mes žinome, kad tokių iš pažiūros nedidelių skirtumų bendras poveikis gali pakeisti gyvenimą.”
Šį darbą iš dalies finansavo MIT-IBM Watson AI laboratorija, Quanta tyrimų institutas, Kanados pažangiųjų tyrimų instituto AI katedra ir „Microsoft Research”