Naujų medžiagų ir vaistų atradimas paprastai apima rankinį, bandymų ir klaidų procesą, kuris gali užtrukti dešimtmečius ir kainuoti milijonus dolerių. Norėdami supaprastinti šį procesą, mokslininkai dažnai naudoja mašininį mokymąsi, kad nuspėtų molekulines savybes ir susiaurintų molekules, kurias jiems reikia sintetinti ir išbandyti laboratorijoje.
Mokslininkai iš MIT ir MIT-IBM Watson AI Lab sukūrė naują, vieningą sistemą, kuri vienu metu gali numatyti molekulines savybes ir generuoti naujas molekules daug efektyviau nei šie populiarūs giluminio mokymosi metodai.
Norėdami išmokyti mašininio mokymosi modelį nuspėti molekulės biologines ar mechanines savybes, mokslininkai turi parodyti milijonus paženklintų molekulinių struktūrų – tai procesas, žinomas kaip mokymas. Dėl molekulių atradimo išlaidų ir iššūkių, susijusių su milijonų struktūrų rankiniu žymėjimu, dažnai sunku gauti didelius mokymo duomenų rinkinius, o tai riboja mašininio mokymosi metodų veiksmingumą.
Priešingai, MIT mokslininkų sukurta sistema gali veiksmingai numatyti molekulines savybes, naudodama tik nedidelį duomenų kiekį. Jų sistema turi pagrindinį supratimą apie taisykles, kurios diktuoja, kaip statybiniai blokai sujungiami, kad būtų sukurtos tinkamos molekulės. Šios taisyklės užfiksuoja molekulinių struktūrų panašumus, o tai padeda sistemai generuoti naujas molekules ir prognozuoti jų savybes efektyviai naudojant duomenis.
Šis metodas pranoko kitus mašininio mokymosi metodus tiek mažuose, tiek dideliuose duomenų rinkiniuose ir galėjo tiksliai numatyti molekulines savybes ir generuoti gyvybingas molekules, kai buvo pateiktas duomenų rinkinys, kuriame buvo mažiau nei 100 mėginių.
„Mūsų tikslas šiame projekte yra naudoti kai kuriuos duomenimis pagrįstus metodus, kad būtų paspartintas naujų molekulių atradimas, kad galėtumėte išmokyti modelį, kuris atliktų prognozes be visų šių brangių eksperimentų“, – sako pagrindinis autorius Minghao Guo, kompiuterių mokslo ir elektros inžinerijos (EECS) absolventas.
Guo bendraautoriai yra MIT-IBM Watson AI Lab tyrimų darbuotojai Veronika Thost, Payel Das ir Jie Chen; neseniai MIT absolventai Samuel Song ’23 ir Adithya Balachandran ’23; ir vyresnysis autorius Wojciechas Matusikas, elektros inžinerijos ir kompiuterių mokslo profesorius bei MIT-IBM Watson AI laboratorijos narys, vadovaujantis MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) skaičiavimo projektavimo ir gamybos grupei. Tyrimas bus pristatytas Tarptautinėje mašininio mokymosi konferencijoje.
Molekulių kalbos mokymasis
Norint pasiekti geriausių mašininio mokymosi modelių rezultatų, mokslininkams reikia mokymo duomenų rinkinių su milijonais molekulių, kurių savybės panašios į tas, kurias jie tikisi atrasti. Tiesą sakant, šie konkrečiai domenui būdingi duomenų rinkiniai paprastai yra labai maži. Taigi, mokslininkai naudoja modelius, kurie buvo iš anksto paruošti dideliems bendrųjų molekulių duomenų rinkiniams, kuriuos jie taiko daug mažesniam tiksliniam duomenų rinkiniui. Tačiau, kadangi šie modeliai neįgijo daug žinių apie domeną, jie paprastai veikia prastai.
MIT komanda pasirinko kitokį požiūrį. Jie sukūrė mašininio mokymosi sistemą, kuri automatiškai išmoksta molekulių „kalbą“ – tai vadinama molekuline gramatika – naudodama tik nedidelį, konkrečiai domenui būdingą duomenų rinkinį. Ji naudoja šią gramatiką gyvybingoms molekulėms kurti ir jų savybėms numatyti.
Kalbos teorijoje žodžiai, sakiniai ar pastraipos generuojami pagal gramatikos taisyklių rinkinį. Taip pat galite galvoti apie molekulinę gramatiką. Tai gamybos taisyklių rinkinys, nurodantis, kaip generuoti molekules ar polimerus derinant atomus ir substruktūras.
Kaip ir kalbos gramatika, galinti sukurti daugybę sakinių, naudodama tas pačias taisykles, viena molekulinė gramatika gali atstovauti daugybei molekulių. Panašios struktūros molekulės naudoja tas pačias gramatikos gamybos taisykles, o sistema išmoksta suprasti šiuos panašumus.
Kadangi struktūriškai panašios molekulės dažnai turi panašias savybes, sistema naudoja savo žinias apie molekulinį panašumą, kad galėtų efektyviau numatyti naujų molekulių savybes.
„Kai turėsime šią gramatiką kaip visų skirtingų molekulių vaizdavimą, galėsime ją panaudoti savybių numatymo procesui paspartinti“, – sako Guo.
Sistema išmoksta molekulinės gramatikos kūrimo taisykles, naudodama mokymąsi sustiprinant – bandymų ir klaidų procesą, kai modelis apdovanojamas už elgesį, kuris priartina jį prie tikslo.
Tačiau kadangi gali būti milijardai būdų, kaip sujungti atomus ir substruktūras, gramatikos gamybos taisyklių mokymosi procesas būtų per brangus skaičiuojant bet kam, išskyrus mažiausią duomenų rinkinį.
Mokslininkai molekulinę gramatiką atsiejo į dvi dalis. Pirmoji dalis, vadinama metagrama, yra bendra, plačiai taikoma gramatika, kurią jie kuria rankiniu būdu ir pateikia sistemai pačioje pradžioje. Tada jam tereikia išmokti daug mažesnę, konkrečiai molekulei būdingą gramatiką iš domeno duomenų rinkinio. Šis hierarchinis požiūris pagreitina mokymosi procesą.
Dideli rezultatai, maži duomenų rinkiniai
Eksperimentų metu naujoji mokslininkų sistema vienu metu generavo gyvybingas molekules ir polimerus ir numatė jų savybes tiksliau nei keli populiarūs mašininio mokymosi metodai, net kai domenui būdinguose duomenų rinkiniuose buvo tik keli šimtai pavyzdžių. Kai kuriems kitiems metodams taip pat prireikė brangaus išankstinio mokymo, kurio naujoji sistema išvengia.
Šis metodas buvo ypač veiksmingas numatant fizines polimerų savybes, tokias kaip stiklėjimo temperatūra, kuri yra temperatūra, reikalinga medžiagai pereiti iš kietos į skystą. Šios informacijos gavimas rankiniu būdu dažnai yra labai brangus, nes eksperimentams reikia ypač aukštų temperatūrų ir slėgio.
Siekdami patobulinti savo požiūrį, mokslininkai vieną treniruotę sumažino daugiau nei per pusę – iki 94 mėginių. Jų modelis vis tiek pasiekė rezultatų, prilygstančių metodams, parengtiems naudojant visą duomenų rinkinį.
„Šis gramatika pagrįstas vaizdavimas yra labai galingas. Ir kadangi pati gramatika yra labai bendras vaizdavimas, ji gali būti pritaikyta įvairių tipų grafiko formos duomenims. Mes stengiamės nustatyti kitas programas, išskyrus chemiją ar medžiagų mokslą“, – sako Guo.
Ateityje jie taip pat nori išplėsti savo dabartinę molekulinę gramatiką, kad apimtų 3D molekulių ir polimerų geometriją, kuri yra labai svarbi norint suprasti polimerų grandinių sąveiką. Jie taip pat kuria sąsają, kuri parodytų vartotojui išmoktas gramatikos gamybos taisykles ir paprašytų atsiliepimų, kad būtų ištaisytos taisyklės, kurios gali būti klaidingos, taip padidinant sistemos tikslumą.
Šį darbą iš dalies finansuoja „MIT-IBM Watson AI Lab“ ir jos narė „Evonik“.