Naudojami galingi mašininio mokymosi modeliai, padedantys žmonėms spręsti sudėtingas problemas, pvz., nustatyti ligas medicininiuose vaizduose arba aptikti kelio kliūtis autonominėms transporto priemonėms. Tačiau mašininio mokymosi modeliai gali padaryti klaidų, todėl labai svarbu, kad žmonės žinotų, kada pasitikėti modelio prognozėmis.
Neapibrėžtumo kiekybinis įvertinimas yra viena iš priemonių, gerinančių modelio patikimumą; modelis sukuria balą kartu su prognoze, kuri išreiškia pasitikėjimo lygį, kad prognozė yra teisinga. Nors neapibrėžtumo kiekybinis įvertinimas gali būti naudingas, esami metodai paprastai reikalauja perkvalifikuoti visą modelį, kad suteiktų jam tokią galimybę. Mokymas apima milijonų pavyzdžių demonstravimą modeliui, kad jis galėtų išmokti užduotį. Tada perkvalifikavimui reikia įvesti milijonus naujų duomenų, kurie gali būti brangūs ir sunkiai pasiekiami, be to, sunaudojami didžiuliai skaičiavimo ištekliai.
MIT ir MIT-IBM Watson AI laboratorijos mokslininkai dabar sukūrė metodą, leidžiantį modeliui atlikti efektyvesnį neapibrėžties kiekybinį įvertinimą, naudojant daug mažiau skaičiavimo išteklių nei kiti metodai ir nereikia jokių papildomų duomenų. Jų technika, kuri nereikalauja, kad vartotojas perkvalifikuotų ar modifikuotų modelį, yra pakankamai lankstus daugeliui programų.
Ši technika apima paprastesnio papildomo modelio kūrimą, kuris padeda pradiniam mašininio mokymosi modeliui įvertinti neapibrėžtumą. Šis mažesnis modelis skirtas nustatyti įvairių tipų neapibrėžtumą, kuris gali padėti tyrėjams išsiaiškinti pagrindinę netikslių prognozių priežastį.
„Neapibrėžtumo kiekybinis įvertinimas yra būtinas ir mašininio mokymosi modelių kūrėjams, ir naudotojams. Kūrėjai gali naudoti neapibrėžtumo matavimus, kad padėtų sukurti patikimesnius modelius, o vartotojams tai gali suteikti dar vieną pasitikėjimo ir patikimumo sluoksnį diegdami modelius realiame pasaulyje. Mūsų darbas leidžia rasti lankstesnį ir praktiškesnį neapibrėžtumo kiekybinio įvertinimo sprendimą“, – sako Maohao Shen, elektros inžinerijos ir informatikos magistrantūros studentas ir pagrindinis šio metodo autorius.
Shen parašė dokumentą su Yuheng Bu, buvusiu Elektronikos tyrimų laboratorijos (RLE) postdoc, kuris dabar yra Floridos universiteto docentas; Prasanna Sattigeri, Soumya Ghosh ir Subhro Das, MIT-IBM Watson AI laboratorijos mokslo darbuotojai; ir vyresnysis autorius Gregory Wornell, Sumitomo inžinerijos profesorius, vadovaujantis Signalų, informacijos ir algoritmų laboratorijai RLE ir MIT-IBM Watson AI laboratorijos narys. Tyrimas bus pristatytas AAAI dirbtinio intelekto konferencijoje.
Kiekybinis neapibrėžtumas
Kiekybiškai įvertinant neapibrėžtumą, mašininio mokymosi modelis generuoja skaitinį balą su kiekviena išvestimi, kad atspindėtų jo pasitikėjimą tos prognozės tikslumu. Norint įtraukti neapibrėžtumo kiekybinį įvertinimą kuriant naują modelį nuo nulio arba perkvalifikuojant esamą modelį, paprastai reikia daug duomenų ir brangių skaičiavimų, o tai dažnai yra nepraktiška. Be to, esami metodai kartais turi nenumatytų pasekmių – pablogina modelio prognozių kokybę.
Taigi MIT ir MIT-IBM Watson AI Lab tyrėjai išsprendė šią problemą: kaip iš anksto parengtas modelis gali leisti jam atlikti veiksmingą neapibrėžties kiekybinį įvertinimą?
Jie tai išsprendžia sukurdami mažesnį ir paprastesnį modelį, žinomą kaip metamodelis, kuris prijungiamas prie didesnio, iš anksto paruošto modelio ir naudoja funkcijas, kurias didesnis modelis jau išmoko, kad padėtų atlikti neapibrėžtumo kiekybinį įvertinimą.
„Metamodelis gali būti pritaikytas bet kuriam iš anksto apmokytam modeliui. Geriau turėti prieigą prie modelio vidinių elementų, nes mes galime gauti daug daugiau informacijos apie bazinį modelį, tačiau jis taip pat veiks, jei turėsite tik galutinę išvestį. Tai vis tiek gali numatyti pasitikėjimo balą “, – sako Sattigeri.
Jie suprojektuoja metamodelį, kad gautų neapibrėžties kiekybinio įvertinimo išvestį, naudojant metodą, apimantį abiejų tipų neapibrėžtumą: duomenų neapibrėžtį ir modelio neapibrėžtį. Duomenų neapibrėžtumą sukelia sugadinti duomenys arba netikslios etiketės ir jį galima sumažinti tik pataisius duomenų rinkinį arba renkant naujus duomenis. Dėl modelio neapibrėžtumo modelis nėra tikras, kaip paaiškinti naujai pastebėtus duomenis, ir gali pateikti neteisingas prognozes, greičiausiai dėl to, kad jis nematė pakankamai panašių mokymo pavyzdžių. Ši problema yra ypač sudėtinga, bet dažna problema diegiant modelius. Realiame pasaulyje jie dažnai susiduria su duomenimis, kurie skiriasi nuo mokymo duomenų rinkinio.
„Ar pasikeitė jūsų sprendimų patikimumas, kai naudojate modelį naujoje aplinkoje? Norite kažkokiu būdu pasitikėti, ar jis veikia pagal šį naują režimą, ar jums reikia rinkti treniruočių duomenis šiam konkrečiam naujam nustatymui“, – sako Wornell.
Kiekybinio įvertinimo patvirtinimas
Kai modelis sukuria neapibrėžtumo kiekybinį balą, vartotojui vis tiek reikia užtikrinti, kad pats balas yra tikslus. Tyrėjai dažnai patvirtina tikslumą sukurdami mažesnį duomenų rinkinį, paimtą iš pradinių mokymo duomenų, o tada išbandydami modelį pagal išlikusius duomenis. Tačiau šis metodas neveikia gerai matuojant neapibrėžtumo kiekybinį įvertinimą, nes modelis gali pasiekti gerą numatymo tikslumą, tačiau vis tiek yra pernelyg pasitikintis savimi, sako Shen.
Jie sukūrė naują patvirtinimo techniką, pridėdami triukšmo prie patvirtinimo rinkinio duomenų – šie triukšmingi duomenys labiau primena neplatinamus duomenis, kurie gali sukelti modelio neapibrėžtumą. Tyrėjai naudoja šį triukšmingą duomenų rinkinį neapibrėžtumo kiekybiniam įvertinimui įvertinti.
Jie išbandė savo požiūrį matydami, kaip gerai metamodelis gali užfiksuoti įvairaus tipo neapibrėžtumą įvairioms paskesnėms užduotims, įskaitant neplatinimo aptikimą ir klaidingo klasifikavimo aptikimą. Jų metodas ne tik pranoko visas pradines kiekvienos paskesnės užduotys, bet ir prireikė mažiau treniruočių laiko šiems rezultatams pasiekti.
Šis metodas galėtų padėti tyrėjams įgalinti daugiau mašininio mokymosi modelių, kad būtų galima efektyviai įvertinti neapibrėžtumą, o tai galiausiai padėtų vartotojams priimti geresnius sprendimus, kada pasitikėti prognozėmis.
Žvelgiant į priekį, mokslininkai nori pritaikyti savo techniką naujesnėms modelių klasėms, pavyzdžiui, dideliems kalbos modeliams, kurių struktūra skiriasi nuo tradicinio neuroninio tinklo, sako Shen.
Darbą iš dalies finansavo MIT-IBM Watson AI Lab ir JAV nacionalinis mokslo fondas.

