Klasikiniam kompiuterių mokslo posakiui „šiukšles įvežti, šiukšles išvežti“ trūksta niuansų, kai reikia suprasti šališkus medicininius duomenis, teigia kompiuterių mokslo ir bioetikos profesoriai iš MIT, Johns Hopkins universiteto ir Alano Turingo instituto naujame nuomonės straipsnyje, paskelbtame neseniai. leidimas Naujosios Anglijos medicinos žurnalas (NEJM). Didėjantis dirbtinio intelekto populiarumas padidino šališkų AI modelių, dėl kurių atsiranda algoritminė diskriminacija, klausimą, kurį Baltųjų rūmų mokslo ir technologijų biuras nurodė kaip pagrindinę problemą neseniai paskelbtame AI Bill of Rights projekte.
Kai susiduriama su šališkais duomenimis, ypač AI modelių, naudojamų medicinos aplinkoje, įprastas atsakas yra surinkti daugiau duomenų iš nepakankamai atstovaujamų grupių arba generuoti sintetinius duomenis, papildančius trūkstamas dalis, siekiant užtikrinti, kad modelis vienodai gerai veiktų įvairiose pacientų grupėse. Tačiau autoriai teigia, kad šis techninis požiūris turėtų būti papildytas sociotechnine perspektyva, kurioje atsižvelgiama ir į istorinius, ir į dabartinius socialinius veiksnius. Tai darydami mokslininkai gali veiksmingiau spręsti visuomenės sveikatos šališkumą.
„Mes trys diskutavome, kaip dažnai su duomenimis susijusias problemas traktuojame iš mašininio mokymosi perspektyvos kaip dirginimą, kurį reikia suvaldyti naudojant techninį sprendimą“, – prisimena bendraautorius Marzyehas Ghassemi, elektros inžinerijos profesorius ir docentas. kompiuterių mokslų ir Abdul Latif Jameel klinikos, skirtos mašininio mokymosi sveikatos srityje (Jameel klinika), Kompiuterinių mokslų ir dirbtinio intelekto laboratorijos (CSAIL) ir Medicinos inžinerijos ir mokslo instituto (IMES) filialas. „Mes naudojome duomenų analogijas kaip artefaktą, suteikiantį dalinį praeities praktikos vaizdą, arba įskilusį veidrodį, laikantį atspindį. Abiem atvejais informacija galbūt nėra visiškai tiksli ar palanki: galbūt mes manome, kad elgiamės tam tikrais būdais kaip visuomenė, bet kai iš tikrųjų žiūrite į duomenis, tai pasakoja kitą istoriją. Mums gali nepatikti, kas yra ta istorija, bet kai atkasi supratimą apie praeitį, galėsi judėti į priekį ir imtis veiksmų, kad išspręstų prastą praktiką.
Duomenys kaip artefaktas
Straipsnyje, pavadintame „Nešališkus duomenis vertinant kaip informacinius artefaktus dirbtinio intelekto padedamoje sveikatos priežiūros srityje“, Ghassemi, Kadija Ferryman ir Maxine Mackintosh teigia, kad šališkus klinikinius duomenis reikia laikyti „artefaktais“ taip pat, kaip antropologai ar archeologai žiūrėtų į fizinius duomenis. objektai: civilizaciją atskleidžiančios praktikos, įsitikinimų sistemos ir kultūrinės vertybės – dokumento atveju, ypač tie, kurie lėmė esamą nelygybę sveikatos priežiūros sistemoje.
Pavyzdžiui, 2019 m. atliktas tyrimas parodė, kad algoritmas, plačiai laikomas pramonės standartu, naudojo sveikatos priežiūros išlaidas kaip poreikio rodiklį, todėl buvo padaryta klaidinga išvada, kad sergantys juodaodžiai pacientai reikalauja tokio pat priežiūros kaip ir sveikesni baltieji pacientai. Tyrėjai nustatė, kad algoritminė diskriminacija neatsižvelgė į nevienodą prieigą prie priežiūros.
Šiuo atveju, užuot vertinę šališkus duomenų rinkinius ar duomenų trūkumą kaip problemas, kurias reikia tik pašalinti arba pataisyti, Ghassemi ir jos kolegos rekomenduoja „artefaktų“ metodą, kaip būdą didinti informuotumą apie socialinius ir istorinius elementus, turinčius įtakos duomenų rinkimui ir alternatyviems. požiūriai į klinikinio AI kūrimą.
„Jei jūsų modelio tikslas yra naudoti klinikinėje aplinkoje, pakankamai anksti kurdami problemą turėtumėte pasitelkti bioetiką arba kliniką, turintį atitinkamą mokymą“, – sako Ghassemi. „Kaip kompiuterių mokslininkai, dažnai neturime viso vaizdo apie įvairius socialinius ir istorinius veiksnius, kurie buvo naudojami kuriant duomenis, kuriuos naudosime. Mums reikia patirties, kad galėtume atskirti, kada modeliai, apibendrinti iš esamų duomenų, gali netinkamai veikti konkrečiuose pogrupiuose.
Kai daugiau duomenų gali pakenkti našumui
Autoriai pripažįsta, kad vienas iš sudėtingesnių aspektų įgyvendinant artefaktais pagrįstą metodą yra galimybė įvertinti, ar duomenys buvo pakoreguoti rasiškai: ty naudojant baltus vyriškus kūnus kaip įprastą standartą, pagal kurį matuojami kiti kūnai. Nuomonės straipsnyje cituojamas pavyzdys iš 2021 m. Chronic Kidney Disease Collaboration, kuriame buvo sukurta nauja lygtis inkstų funkcijai matuoti, nes senoji lygtis anksčiau buvo „pataisyta“ remiantis prielaida, kad juodaodžiai turi didesnę raumenų masę. Ghassemi teigia, kad mokslininkai turėtų būti pasirengę tirti rase pagrįstą korekciją kaip tyrimo proceso dalį.
Kitame neseniai paskelbtame dokumente, priimtame į šių metų tarptautinę mašininio mokymosi konferenciją, kurią bendrai parašė Ghassemi doktorantas Vinithas Suriyakumaras ir Kalifornijos universiteto San Diege docentas Berkas Ustūnas, tyrėjai nustatė, kad, darant prielaidą, kad įtraukus asmeninius požymius, pvz., rasę, pagerėtų. ML modelių veikimas iš tikrųjų gali lemti blogesnius rizikos balus, modelius ir metriką mažumoms ir mažumoms.
„Nėra vieno teisingo sprendimo, ar įtraukti rasę, apie kurią pranešta savarankiškai, ar ne į klinikinės rizikos balą. Savarankiškai pranešta rasė yra socialinis konstruktas, kuris yra ir kitos informacijos šaltinis, ir labai priklauso nuo kitų medicininių duomenų. Sprendimas turi atitikti įrodymus“, – aiškina Ghassemi.
Kaip judėti į priekį
Tai nereiškia, kad šališki duomenų rinkiniai turėtų būti įtvirtinti arba šališkus algoritmus taisyti nereikia – kokybiški mokymo duomenys vis dar yra labai svarbūs kuriant saugius, didelio našumo klinikinius AI modelius. NEJM kūrinys pabrėžia Nacionalinių sveikatos institutų (NIH) vaidmenį skatinant etinę praktiką.
„Aukštos kokybės, etiškai gautų duomenų rinkinių generavimas yra labai svarbus, kad būtų galima naudoti naujos kartos AI technologijas, kurios pakeičia mūsų tyrimų metodus“, – pranešime spaudai teigė laikinai einantis NIH direktoriaus pareigas Lawrence’as Tabakas, kai praėjusiais metais NIH paskelbė apie savo 130 mln. USD vertės Bridge2AI programą. . Ghassemi sutinka, nurodydamas, kad NIH „pirmybę teikė duomenų rinkimui etiniais būdais, apimančiais informaciją, kurios vertės žmonių sveikatai anksčiau neakcentavome, pavyzdžiui, aplinkos veiksnius ir socialinius veiksnius. Labai džiaugiuosi, kad jie teikia pirmenybę ir daug investuoja į reikšmingus sveikatos rezultatus.
Elaine Nsoesie, Bostono visuomenės sveikatos universiteto docentė, mano, kad šališkus duomenų rinkinius traktuojant kaip artefaktus, o ne šiukšles, yra daug galimų privalumų, pradedant nuo konteksto. „Duomenų rinkinio, surinkto apie plaučių vėžiu sergančius pacientus Ugandos ligoninėje, šališkumas gali skirtis nuo duomenų rinkinio, surinkto JAV apie tą pačią pacientų grupę“, – aiškina ji. „Atsižvelgdami į vietinį kontekstą, galime išmokyti algoritmus, kad geriau aptarnauti konkrečias populiacijas. Nsoesie teigia, kad supratus istorinius ir šiuolaikinius veiksnius, formuojančius duomenų rinkinį, gali būti lengviau nustatyti diskriminacinę praktiką, kuri gali būti užkoduota algoritmuose ar sistemose tokiais būdais, kurie nėra iš karto akivaizdūs. Ji taip pat pažymi, kad artefaktais pagrįstas požiūris gali paskatinti kurti naujas strategijas ir struktūras, užtikrinančias, kad būtų pašalintos pagrindinės tam tikro duomenų rinkinio šališkumo priežastys.
„Žmonės dažnai man sako, kad jie labai bijo dirbtinio intelekto, ypač sveikatos srityje. Jie sakys: „Aš tikrai bijau, kad dirbtinis intelektas neteisingai diagnozuos mane“ arba „Aš nerimauju, kad su manimi elgsis blogai“, – sako Ghassemi. „Sakau jiems, kad rytoj neturėtumėte bijoti kažkokio hipotetinio dirbtinio intelekto sveikatos srityje, turėtumėte bijoti to, kas yra sveikata dabar. Jei žiūrėtume siaurai techniniu požiūriu į duomenis, kuriuos gauname iš sistemų, galėtume naiviai atkartoti prastą praktiką. Tai nėra vienintelė galimybė – suvokimas, kad yra problema, yra pirmasis mūsų žingsnis link didesnės galimybės.