Prieš gaudamas informatikos mokslų daktaro laipsnį MIT 2017 m., Marzyehas Ghassemi jau pradėjo domėtis, ar AI metodų naudojimas gali sustiprinti sveikatos priežiūros paklaidas. Ji buvo viena iš pirmųjų tyrinėtojų, kuri ėmėsi šios problemos, ir nuo to laiko ją tyrinėja. Naujame dokumente Ghassemi, dabar MIT Elektros mokslo ir inžinerijos katedros (EECS) docentas, ir trys kompiuterių mokslo ir dirbtinio intelekto laboratorijos bendradarbiai ištyrė skirtumų, galinčių atsirasti mašininio mokymosi, šaknis. Dėl to modeliai, kurie apskritai gerai veikia, dažnai sugenda, kai kalbama apie pogrupius, apie kuriuos buvo surinkta ir mokymo procese panaudota palyginti nedaug duomenų. Straipsnis, kurį parašė du MIT doktorantai Yuzhe Yang ir Haoran Zhang, EECS kompiuterių mokslininkė Dina Katabi (Thuan ir Nicole Pham profesorė) ir Ghassemi, buvo pristatyti praėjusį mėnesį 40-ojoje tarptautinėje mašininio mokymosi konferencijoje Honolulu, Havajuose.
Analizuodami mokslininkai daugiausia dėmesio skyrė „popopuliacijos pokyčiams“ – mašininio mokymosi modelių veikimo skirtumams vienam pogrupiui, palyginti su kitu. „Norime, kad modeliai būtų teisingi ir veiktų vienodai gerai visoms grupėms, tačiau nuolat stebime, kad įvairiose grupėse atsiranda poslinkių, dėl kurių gali būti prastesnė medicininė diagnozė ir gydymas“, – sako Yang, kuris kartu su Zhang yra du lyderiai. autoriai popieriuje. Pagrindinis jų tyrimo tikslas – nustatyti galimų subpopuliacijų poslinkių rūšis ir atskleisti už jų esančius mechanizmus, kad galiausiai būtų galima sukurti teisingesnius modelius.
Naujasis dokumentas „žymiai pagerina mūsų supratimą“ apie subpopuliacijų kaitos reiškinį, tvirtina Stanfordo universiteto kompiuterių mokslininkas Sanmi Koyejo. „Šis tyrimas suteikia vertingų įžvalgų, susijusių su būsimų mašinų mokymosi modelių našumo pažanga nepakankamai atstovaujamuose pogrupiuose.
Kupranugariai ir galvijai
MIT grupė nustatė keturis pagrindinius poslinkių tipus – netikras koreliacijas, atributų disbalansą, klasių disbalansą ir atributų apibendrinimą – kurie, anot Yang, „niekada nebuvo sujungti į nuoseklią ir vieningą sistemą. Mes sukūrėme vieną lygtį, kuri parodo, iš kur gali atsirasti šališkumo.
Tiesą sakant, šališkumas gali kilti dėl to, ką tyrinėtojai vadina klase, arba dėl požymio, arba dėl abiejų. Norėdami pasirinkti paprastą pavyzdį, tarkime, kad mašininio mokymosi modeliui priskirta užduotis yra surūšiuoti objektų – šiuo atveju gyvūnų – vaizdus į dvi klases: karvių ir kupranugarių. Atributai yra deskriptoriai, kurie nėra konkrečiai susiję su pačia klase. Pavyzdžiui, gali pasirodyti, kad visuose analizėje naudotuose vaizduose karvės stovi ant žolės, o kupranugariai ant smėlio – žolė ir smėlis čia tarnauja kaip atributai. Turint omenyje turimus duomenis, mašina gali padaryti klaidingą išvadą – būtent, kad karves galima rasti tik ant žolės, o ne ant smėlio, o kupranugarių atveju yra priešingai. Tačiau tokia išvada būtų neteisinga, nes tai sukeltų klaidingą koreliaciją, kuri, Yang aiškina, yra „ypatingas atvejis“ tarp subpopuliacijų poslinkių – „tokio atveju, kai jūs turite šališkumą ir klasėje, ir požymyje“.
Medicinos aplinkoje galima remtis mašininio mokymosi modeliais, siekiant nustatyti, ar asmuo serga pneumonija, ar ne, remiantis rentgeno vaizdų tyrimu. Šioje situacijoje būtų dvi klasės: vieną sudarytų žmonės, sergantys plaučių ligomis, o kita – neužkrėsti. Palyginti nesudėtingas atvejis apimtų tik du požymius: žmonės, kuriems buvo atlikta rentgeno nuotrauka, yra moterys arba vyrai. Jei šiame konkrečiame duomenų rinkinyje kiekvienai moteriai, kuriai diagnozuota pneumonija, būtų 100 vyrų, kuriems buvo diagnozuota pneumonija, tai galėtų sukelti savybių disbalansą ir modelis greičiausiai atliktų geresnį darbą nustatydamas pneumoniją vyrui nei moteriai. . Panašiai, jei būtų 1000 kartų daugiau sveikų (nesergančių plaučių uždegimu) tiriamųjų nei sergančių, atsirastų klasės disbalansas, o modelis būtų nukreiptas į sveikus atvejus. Atributų apibendrinimas yra paskutinis poslinkis, pabrėžtas naujajame tyrime. Jei jūsų imtyje buvo 100 vyrų, sergančių pneumonija, ir nulis moterų, sergančių ta pačia liga, vis tiek norėtumėte, kad modelis galėtų apibendrinti ir prognozuoti moteris, net jei treniruočių duomenyse nėra moterų, sergančių pneumonija, pavyzdžių.
Tada komanda paėmė 20 pažangių algoritmų, skirtų atlikti klasifikavimo užduotis, ir išbandė juos keliolikoje duomenų rinkinių, kad pamatytų, kaip jie veikia įvairiose gyventojų grupėse. Jie padarė keletą netikėtų išvadų: patobulinę „klasifikatorių“, kuris yra paskutinis neuroninio tinklo sluoksnis, jie sugebėjo sumažinti netikrų koreliacijų ir klasių disbalanso atsiradimą, tačiau kiti poslinkiai nebuvo paveikti. „Kodavimo priemonės“, vieno iš aukščiausių neuroninio tinklo sluoksnių, patobulinimai galėtų sumažinti atributų disbalanso problemą. „Tačiau, nesvarbu, ką padarėme su koduotuvu ar klasifikatoriumi, atributų apibendrinimo patobulinimų nepastebėjome, – sako Yangas, – ir dar nežinome, kaip tai išspręsti.
Tiksliai tiksliai
Taip pat reikia įvertinti, ar jūsų modelis iš tikrųjų veikia, atsižvelgiant į skirtingų gyventojų grupių vienodumą. Paprastai naudojama metrika, vadinama blogiausios grupės tikslumu arba WGA, grindžiama prielaida, kad jei galėtumėte pagerinti grupės, kurios modelio našumas prasčiausias, tikslumą (pvz., medicininės diagnozės), būtumėte patobulinę modelį kaip visas. „WGA laikomas auksiniu standartu vertinant subpopuliacijas“, – tvirtina autoriai, tačiau jie padarė nuostabų atradimą: blogiausios grupės tikslumo padidinimas sumažina, jų vadinamą, „blogiausio atvejo tikslumą“. Priimant visų rūšių medicininius sprendimus, reikia ir tikslumo, kuris rodo išvadų pagrįstumą, ir tikslumo, kuris yra susijęs su metodikos patikimumu. „Tikslumas ir tikslumas yra labai svarbūs klasifikavimo užduočių rodikliai, o tai ypač pasakytina apie medicininę diagnostiką“, – aiškina Yang. „Niekada neturėtumėte keisti tikslumo į tikslumą. Visada reikia subalansuoti abu.
MIT mokslininkai savo teorijas taiko praktiškai. Tyrime, kurį jie atlieka kartu su medicinos centru, jie tiria viešus duomenų rinkinius apie dešimtis tūkstančių pacientų ir šimtus tūkstančių krūtinės ląstos rentgeno spindulių, bandydami išsiaiškinti, ar mašininio mokymosi modeliai gali veikti nešališkai. visoms populiacijoms. Tai vis dar toli gražu nėra, nors ši problema buvo labiau suvokiama, sako Yang. „Aptinkame daug skirtumų tarp skirtingų amžiaus, lyčių, etninių grupių ir skirtingų grupių.
Jis ir jo kolegos sutaria dėl galutinio tikslo, ty siekti sąžiningumo sveikatos priežiūros srityje tarp visų gyventojų. Tačiau prieš pasiekdami tą tašką, pasak jų, vis tiek turime geriau suprasti nesąžiningumo šaltinius ir tai, kaip jie įsiskverbia į mūsų dabartinę sistemą. Jie pripažįsta, kad reformuoti visą sistemą nebus lengva. Tiesą sakant, pranešimo, kurį jie pristatė Honolulu konferencijoje, pavadinimas „Pokyčiai yra sunkūs“ rodo, su kokiais iššūkiais susiduria jie ir panašiai mąstantys tyrinėtojai.
Šį tyrimą finansuoja MIT-IBM Watson AI Lab.