Naujas statistinis metodas leidžia mokslininkams saugiai naudoti mašininio mokymosi prognozes, kad patikrintų mokslines hipotezes. Šiame paveikslėlyje parodyta meninė technikos interpretacija, vadinama numatymu pagrįsta išvada, kurią sukūrė DALL-E AI sistema. Kreditas: Michaelas Jordanas Per pastarąjį dešimtmetį dirbtinis intelektas įsiskverbė į beveik visus mokslo kampelius: mašininio mokymosi modeliai buvo naudojami baltymų struktūroms numatyti, Amazonės atogrąžų miškų daliai, prarastai dėl miškų naikinimo, įvertinti ir net tolimoms galaktikoms, kuriose gali būti egzoplanetų, klasifikuoti.
Tačiau nors dirbtinis intelektas gali būti naudojamas pagreitinti mokslinius atradimus, padedant mokslininkams numatyti reiškinius, kuriuos realiame pasaulyje gali būti sunku arba brangu ištirti, jis taip pat gali suklaidinti mokslininkus. Lygiai taip pat, kaip pokalbių robotai kartais „haliucinuoja“ arba ką nors sugalvoja, mašininio mokymosi modeliai kartais gali pateikti klaidinančius arba visiškai klaidingus rezultatus.
Straipsnyje, paskelbtame internete m MokslasKalifornijos universiteto Berklio tyrėjai pristato naują statistikos metodą, leidžiantį saugiai panaudoti prognozes, gautas iš mašininio mokymosi modelių, kad būtų galima patikrinti mokslines hipotezes.
Metodas, vadinamas prognozavimu pagrįsta išvada (PPI), naudoja nedidelį realaus pasaulio duomenų kiekį, kad ištaisytų didelių bendrų modelių, pvz., AlphaFold, kuris numato baltymų struktūras, išvestį, atsižvelgiant į konkrečius mokslinius klausimus.
„Šie modeliai yra bendri: jie gali atsakyti į daugelį klausimų, bet mes nežinome, į kuriuos klausimus jie atsako gerai, o į kuriuos – blogai – ir jei naudositės jais naiviai, nežinodami, kurioje byloje esate. gali gauti blogų atsakymų“, – sakė tyrimo autorius Michaelas Jordanas, Pehong Chen elektrotechnikos ir kompiuterių mokslo bei statistikos profesorius Berklio universitete. „Naudodami PPI galite naudoti modelį, bet ištaisyti galimas klaidas, net jei iš pradžių nežinote tų klaidų pobūdžio.”
Paslėpto šališkumo rizika
Kai mokslininkai atlieka eksperimentus, jie ne tik ieško vieno atsakymo – jie nori gauti daugybę patikimų atsakymų. Tai atliekama apskaičiuojant „pasitikėjimo intervalą“, kurį paprasčiausiu atveju galima rasti daug kartų kartojant eksperimentą ir matant, kaip skiriasi rezultatai.
Daugumoje mokslo tyrimų pasikliautinasis intervalas paprastai reiškia suvestinę arba kombinuotą statistiką, o ne atskirus duomenų taškus. Deja, mašininio mokymosi sistemos daugiausia dėmesio skiria atskiriems duomenų taškams, todėl mokslininkams neteikiami tokie neapibrėžtumo vertinimai, kurie jiems rūpi. Pavyzdžiui, AlphaFold numato vieno baltymo struktūrą, tačiau nepateikia tos struktūros patikimumo sampratos ar būdo gauti pasikliovimo intervalus, nurodančius bendrąsias baltymų savybes.
Mokslininkams gali kilti pagunda naudoti AlphaFold prognozes taip, lyg tai būtų duomenys klasikiniams pasikliautiniesiems intervalams apskaičiuoti, neatsižvelgiant į tai, kad šios prognozės nėra duomenys. Šio metodo problema yra ta, kad mašininio mokymosi sistemos turi daug paslėptų paklaidų, kurios gali iškreipti rezultatus. Šie šališkumas iš dalies kyla dėl duomenų, kuriais remdamiesi jie yra mokomi, o tai paprastai yra esami moksliniai tyrimai, kuriems gali būti skiriamas ne toks pat dėmesys kaip dabartiniam tyrimui.
„Iš tiesų, nagrinėjant mokslines problemas, mes dažnai domimės reiškiniais, kurie yra tarp žinomo ir nežinomo krašto“, – sakė Jordanas. „Labai dažnai nėra daug duomenų iš praeities, ir dėl to generatyvieji AI modeliai dar labiau linkę „haliucinuoti“, o tai nereali.
Galiojančių pasikliovimo intervalų skaičiavimas
PPI leidžia mokslininkams įtraukti prognozes iš tokių modelių kaip AlphaFold, nedarant jokių prielaidų apie tai, kaip modelis buvo sukurtas ar kokius duomenis jis apmokė. Norėdami tai padaryti, PPI reikia nedidelio duomenų kiekio, kuris būtų nešališkas, atsižvelgiant į konkrečią tiriamą hipotezę, suporuotas su mašininio mokymosi prognozėmis, atitinkančiomis tuos duomenis. Sujungus šiuos du įrodymų šaltinius, PPI gali sudaryti tinkamus pasikliautinuosius intervalus.
Pavyzdžiui, tyrimų grupė pritaikė PPI metodą algoritmams, kurie gali tiksliai nustatyti Amazonės miškų naikinimo vietas naudojant palydovinius vaizdus. Šie modeliai buvo tikslūs, kai jie buvo išbandyti atskirai miško regionuose; tačiau kai šie vertinimai buvo sujungti siekiant įvertinti miškų naikinimą visoje Amazonėje, pasikliautinieji intervalai tapo labai iškreipti. Taip yra todėl, kad modelis sunkiai atpažino tam tikrus naujesnius miškų naikinimo modelius.
Naudodama PPI, komanda sugebėjo ištaisyti pasikliautinojo intervalo paklaidą, naudodama nedidelį skaičių žmonių pažymėtų miškų naikinimo regionų.
Komanda taip pat parodė, kaip šią techniką galima pritaikyti įvairiems kitiems tyrimams, įskaitant klausimus apie baltymų lankstymą, galaktikų klasifikaciją, genų ekspresijos lygius, planktono skaičiavimą ir ryšį tarp pajamų ir privataus sveikatos draudimo.
„Tikrai nėra jokių apribojimų klausimų, kuriems gali būti taikomas šis metodas“, – sakė Jordanas. „Manome, kad PPI yra labai reikalinga šiuolaikinio duomenų, modelių ir bendradarbiavimo mokslo dalis.”
Papildomi bendraautoriai yra Anastasios N. Angelopoulos, Stephen Bates, Clara Fannjiang ir Tijana Zrnic iš UC Berkeley.
Daugiau informacijos: Anastasios N. Angelopoulos ir kt., Prognozuojama išvada, Mokslas (2023). DOI: 10.1126/science.adi6000
Citata: Kaip naudoti dirbtinį intelektą atradimams nenuklystant mokslui (2023 m. lapkričio 9 d.), gauta 2023 m. lapkričio 9 d. iš https://techxplore.com/news/2023-11-ai-discovery-science-astray.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.