Gydytojai dažnai užklausia paciento elektroninius sveikatos įrašus, ieškodami informacijos, kuri jiems padeda priimti sprendimus dėl gydymo, tačiau sudėtingas šių įrašų pobūdis trukdo šiam procesui. Tyrimai parodė, kad net ir tada, kai gydytojas yra apmokytas naudotis elektroniniu sveikatos įrašu (EĮĮ), atsakymo į vieną klausimą suradimas vidutiniškai gali užtrukti daugiau nei aštuonias minutes
Kuo daugiau laiko gydytojai turi praleisti naršydami dažnai nepatogią EĮĮ sąsają, tuo mažiau laiko jie turi bendravimui su pacientais ir gydymui
Mokslininkai pradėjo kurti mašininio mokymosi modelius, kurie gali supaprastinti šį procesą, automatiškai surasdami EĮĮ reikalingą informaciją. Tačiau veiksmingiems modeliams apmokyti reikalingi didžiuliai atitinkamų medicininių klausimų duomenų rinkiniai, kuriuos dažnai sunku gauti dėl privatumo apribojimų. Esami modeliai sunkiai generuoja autentiškus klausimus, t. y. tokius, kuriuos užduotų gydytojas, ir dažnai nesugeba sėkmingai rasti teisingų atsakymų
Siekdami įveikti šį duomenų trūkumą, MIT mokslininkai bendradarbiavo su medicinos ekspertais, kad ištirtų klausimus, kuriuos gydytojai užduoda peržiūrėdami EHR. Tada jie sukūrė viešai prieinamą duomenų rinkinį, kurį sudaro daugiau nei 2,000 kliniškai svarbių klausimų, parašytų šių medicinos ekspertų.
Kai jie panaudojo savo duomenų rinkinį mašininio mokymosi modeliui apmokyti generuoti klinikinius klausimus, jie nustatė, kad modelis uždavė kokybiškus ir autentiškus klausimus, palyginti su tikrais medicinos ekspertų klausimais, daugiau nei 60 proc. atvejų.
Naudodami šį duomenų rinkinį, jie planuoja generuoti didžiulį kiekį autentiškų medicininių klausimų, o tada šiuos klausimus naudoti mašininio mokymosi modeliui, kuris padėtų gydytojams efektyviau surasti ieškomą informaciją paciento įraše, apmokyti.
„Du tūkstančiai klausimų gali atrodyti daug, bet kai pažvelgiate į šiais laikais mokomus mašininio mokymosi modelius, jie turi tiek daug duomenų, galbūt milijardus duomenų taškų. Kai mokote mašininio mokymosi modelius, kad jie veiktų sveikatos priežiūros įstaigose, turite būti labai kūrybingi, nes duomenų taip trūksta”, – sako pagrindinis autorius Ericas Lehmanas, Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) magistrantas.
Vyriausiasis autorius yra Peteris Szolovitsas, Elektros inžinerijos ir informatikos katedros (EECS) profesorius, vadovaujantis CSAIL Klinikinių sprendimų priėmimo grupei ir MIT-IBM Watson AI laboratorijos narys. Mokslinis darbas, parengtas bendradarbiaujant MIT, MIT-IBM Watson AI laboratorijos, IBM Research ir gydytojams bei medicinos ekspertams, kurie padėjo kurti klausimus ir dalyvavo tyrime, bus pristatytas metinėje Kompiuterinės lingvistikos asociacijos Šiaurės Amerikos skyriaus konferencijoje.
„Realūs duomenys yra labai svarbūs mokant modelius, kurie yra svarbūs užduočiai, tačiau kuriuos sunku rasti ar sukurti, – sako P. Szolovitsas. „Šio darbo vertė – kruopščiai surinkti gydytojų užduodamus klausimus apie pacientų atvejus, iš kurių galime sukurti metodus, naudojančius šiuos duomenis ir bendrosios kalbos modelius tolesniems tikėtiniems klausimams užduoti.”
Duomenų trūkumas
Keli dideli klinikinių klausimų duomenų rinkiniai, kuriuos mokslininkams pavyko rasti, turėjo daugybę problemų, aiškina Lehmanas. Kai kuriuos iš jų sudarė pacientų interneto forumuose užduodami medicininiai klausimai, o tai toli gražu neatitinka gydytojų klausimų. Kituose duomenų rinkiniuose buvo klausimų, parengtų pagal šablonus, todėl jų struktūra dažniausiai yra identiška, todėl daugelis klausimų yra nerealūs.
„Rinkti aukštos kokybės duomenis yra labai svarbu atliekant mašininio mokymosi užduotis, ypač sveikatos priežiūros kontekste, ir mes parodėme, kad tai galima padaryti”, – sako Lehmanas.
Siekdami sukurti savo duomenų rinkinį, MIT tyrėjai dirbo su praktikuojančiais gydytojais ir medicinos studentais, besimokančiais paskutiniaisiais studijų metais. Šiems medicinos ekspertams jie pateikė daugiau nei 100 EHR išrašų santraukų ir liepė jiems perskaityti santrauką bei užduoti visus jiems rūpimus klausimus. Siekdami surinkti natūralius klausimus, tyrėjai nenustatė jokių apribojimų dėl klausimų tipų ar struktūros. Jie taip pat paprašė medicinos ekspertų nustatyti EHR esantį „paleidžiamąjį tekstą”, kuris paskatino juos užduoti kiekvieną klausimą.
Pavyzdžiui, medicinos ekspertas gali perskaityti EHR esančią pastabą, kurioje rašoma, kad paciento praeities ligos istorijoje yra reikšmingų prostatos vėžio ir hipotirozės požymių. Trigerinis tekstas „prostatos vėžys” gali paskatinti ekspertą užduoti tokius klausimus kaip „diagnozės nustatymo data?” arba „ar buvo atliktos kokios nors intervencijos?”
Jie nustatė, kad dauguma klausimų buvo skirti simptomams, gydymui arba paciento tyrimų rezultatams. Nors šios išvados nebuvo netikėtos, kiekybinis klausimų apie kiekvieną plačią temą skaičiaus nustatymas padės jiems sukurti veiksmingą duomenų rinkinį, kurį bus galima naudoti realioje klinikinėje aplinkoje, sako Lehmanas
Kai jie surinko klausimų ir juos lydinčio trigerio teksto duomenų rinkinį, jie jį panaudojo mašininio mokymosi modeliams apmokyti užduoti naujus klausimus pagal trigerio tekstą.
Tuomet medicinos ekspertai nustatė, ar šie klausimai yra „geri”, naudodami keturis rodiklius: suprantamumą (Ar klausimas turi prasmę gydytojui žmogui?), trivialumą (Ar klausimas nėra per daug lengvai atsakomas iš trigerio teksto?), medicininę svarbą (Ar prasminga užduoti šį klausimą, atsižvelgiant į kontekstą?) ir atitikimą trigeriui (Ar trigeris susijęs su klausimu?).
Susirūpinimo priežastis
Tyrėjai nustatė, kad kai modeliui buvo pateiktas trigerio tekstas, jis galėjo sukurti gerą klausimą 63 procentais atvejų, o žmogus gydytojas užduotų gerą klausimą 80 procentais atvejų.
Jie taip pat išmokė modelius atkurti atsakymus į klinikinius klausimus naudodami viešai prieinamus duomenų rinkinius, kuriuos rado šio projekto pradžioje. Tada jie išbandė šiuos apmokytus modelius, norėdami patikrinti, ar jie gali rasti atsakymus į „gerus” klausimus, kuriuos uždavė medicinos ekspertai žmonės.”
Modeliai sugebėjo atkurti tik apie 25 proc. atsakymų į gydytojų pateiktus klausimus.”
„Šis rezultatas tikrai kelia nerimą. Tai, ką žmonės laikė gerai veikiančiais modeliais, praktiškai buvo tiesiog siaubinga, nes vertinimo klausimai, kuriuos jie testavo, iš pradžių nebuvo geri”, – sako Lehmanas.
Dabar komanda šį darbą taiko siekdama savo pradinio tikslo – sukurti modelį, kuris galėtų automatiškai atsakyti į gydytojų klausimus EHR. Kitame etape jie panaudos savo duomenų rinkinį mašininio mokymosi modeliui, galinčiam automatiškai generuoti tūkstančius ar milijonus gerų klinikinių klausimų, kuriuos vėliau bus galima panaudoti naujam automatinio atsakymo į klausimus modeliui apmokyti
Nors dar reikia daug nuveikti, kol šis modelis taps realybe, Lehmaną džiugina geri pradiniai rezultatai, kuriuos komanda pademonstravo su šiuo duomenų rinkiniu
Šį tyrimą iš dalies parėmė MIT-IBM Watson AI Lab. Kiti bendraautoriai: Leo Anthony Celi iš MIT Medicinos inžinerijos ir mokslo instituto; Preethi Raghavan ir Jennifer J. Liang iš MIT-IBM Watson AI Lab; Dana Moukheiber iš Buffalo universiteto; Vladislav Lialin ir Anna Rumshisky iš Masačusetso universiteto Lowell; Katelyn Legaspi, Nicole Rose I. Alberto, Richard Raymund R. Ragasa, Corinna Victoria M. Puyat, Isabelle Rose I. Alberto ir Pia Gabrielle I. Alfonso iš Filipinų universiteto; Anne Janelle R. Sy ir Patricia Therese S. Pile iš Rytų Ramon Magsaysay memorialinio medicinos centro; Marianne Taliño iš Ateneo de Manilos universiteto Medicinos ir visuomenės sveikatos mokyklos; ir Byron C. Wallace iš Šiaurės rytų universiteto.