Biologija yra nuostabus, bet subtilus gobelenas. Širdyje yra DNR, pagrindinis audėjas, koduojantis baltymus, atsakingas už daugelio biologinių funkcijų, palaikančių gyvybę žmogaus kūne, organizavimą. Tačiau mūsų kūnas yra panašus į puikiai suderintą instrumentą, kuris gali prarasti savo harmoniją. Juk susiduriame su nuolat besikeičiančiu ir nenumaldomu gamtos pasauliu: patogenais, virusais, ligomis ir vėžiu.
Įsivaizduokite, ar galėtume paspartinti vakcinų ar vaistų nuo naujai atsiradusių patogenų kūrimo procesą. Ką daryti, jei turėtume genų redagavimo technologiją, galinčią automatiškai gaminti baltymus, kad ištaisytų vėžį sukeliančias DNR klaidas? Siekis identifikuoti baltymus, kurie gali stipriai susijungti su taikiniais arba pagreitinti chemines reakcijas, yra gyvybiškai svarbus kuriant vaistus, diagnostiką ir daugelį pramoninių pritaikymų, tačiau dažnai tai yra užsitęsęs ir brangus darbas.
Siekdami išplėsti mūsų gebėjimus baltymų inžinerijoje, MIT CSAIL tyrėjai sukūrė „FrameDiff“ – skaičiavimo įrankį, skirtą kurti naujas baltymų struktūras, ne tik gamtos sukurtas. Mašininio mokymosi metodas sukuria „rėmus“, kurie suderinami su būdingomis baltymų struktūrų savybėmis ir leidžia sukurti naujus baltymus nepriklausomai nuo jau egzistuojančių dizainų, palengvinančių precedento neturinčias baltymų struktūras.
„Gamtoje baltymų kūrimas yra lėtai degantis procesas, trunkantis milijonus metų. Mūsų technika siekia išspręsti žmogaus sukeltas problemas, kurios vystosi daug greičiau nei gamtos tempai“, – sako MIT CSAIL doktorantas Jasonas Yimas, pagrindinis naujo darbo apie darbą autorius. kurios gali veiksmingiau ir selektyviau prisijungti prie kitų molekulių, o tai turi platų poveikį, susijusį su tiksliniu vaistų tiekimu ir biotechnologijomis, kur galėtų sukurti geresnius biojutiklius. Tai taip pat gali turėti įtakos biomedicinos sričiai ir ne tik, pasiūlydama tokias galimybes kaip efektyvesnių fotosintezės baltymų kūrimas, veiksmingesnių antikūnų kūrimas genų terapijai.
Įrėminti FrameDiff
Baltymai turi sudėtingą struktūrą, sudarytą iš daugelio atomų, sujungtų cheminiais ryšiais. Svarbiausi atomai, lemiantys baltymo 3D formą, vadinami „stuburu“, panašiai kaip baltymo stuburas. Kiekvienas atomų tripletas išilgai stuburo turi tą patį ryšių ir atomų tipų modelį. Tyrėjai pastebėjo, kad šis modelis gali būti panaudotas kuriant mašininio mokymosi algoritmus, naudojant diferencialinės geometrijos ir tikimybių idėjas. Čia atsiranda rėmeliai: matematiškai šie trynukai gali būti modeliuojami kaip standūs kūnai, vadinami „rėmeliais“ (dažniausiai naudojami fizikoje), kurių padėtis ir sukimasis 3D.
Šie rėmeliai kiekvienam trijuliui suteikia pakankamai informacijos, kad žinotų apie jo erdvinę aplinką. Tada mašininio mokymosi algoritmo užduotis yra išmokti perkelti kiekvieną kadrą, kad būtų sukurtas baltymų pagrindas. Tikimasi, kad išmokus konstruoti esamus baltymus algoritmas apibendrins ir galės sukurti naujus, gamtoje dar niekada nematytus baltymus.
Mokant modelį konstruoti baltymus „difuzijos“ būdu, įleidžiamas triukšmas, kuris atsitiktinai perkelia visus kadrus ir sulieja, kaip atrodė pradinis baltymas. Algoritmo užduotis yra perkelti ir pasukti kiekvieną kadrą, kol jis atrodys kaip originalus baltymas. Nors ir paprasta, norint sukurti difuziją ant rėmų, reikia stochastinio skaičiavimo Riemanno kolektoriuose metodų. Kalbant apie teoriją, mokslininkai sukūrė „SE (3) difuziją“, skirtą mokytis tikimybių skirstiniams, kurie netrivialiai sujungia kiekvieno kadro vertimus ir sukimosi komponentus.
Baltymų struktūros generavimas naudojant FrameDiff
Vaizdas: Ianas Haydonas / Baltymų dizaino institutas
Subtilus sklaidos menas
2021 m. „DeepMind“ pristatė „AlphaFold2“ – gilaus mokymosi algoritmą, leidžiantį numatyti 3D baltymų struktūras pagal jų sekas. Kuriant sintetinius baltymus yra du esminiai žingsniai: generavimas ir numatymas. Generavimas reiškia naujų baltymų struktūrų ir sekų kūrimą, o „numatymas“ reiškia išsiaiškinti, kokia yra sekos 3D struktūra. Neatsitiktinai AlphaFold2 taip pat naudojo rėmelius baltymams modeliuoti. SE(3) difuzija ir FrameDiff buvo įkvėpti toliau plėtoti kadrų idėją, įtraukiant kadrus į difuzijos modelius – generatyvinę AI techniką, kuri tapo nepaprastai populiari kuriant vaizdus, pavyzdžiui, „Midjourney“.
Bendri baltymų struktūros generavimo ir prognozavimo rėmai ir principai reiškė, kad geriausi modeliai iš abiejų galų buvo suderinami. Bendradarbiaujant su Vašingtono universiteto Baltymų dizaino institutu, SE (3) difuzija jau naudojama kuriant ir eksperimentiškai patvirtinant naujus baltymus. Konkrečiai, jie sujungė SE (3) difuziją su RosettaFold2, baltymų struktūros prognozavimo įrankiu, panašiu į AlphaFold2, dėl kurio atsirado „RF difuzija“. Šis naujas įrankis priartino baltymų dizainerius sprendžiant esmines biotechnologijų problemas, įskaitant labai specifinių baltymų rišiklių kūrimą pagreitintam vakcinos projektavimui, simetriškų baltymų kūrimą genų pristatymui ir tvirtus motyvų pastolius tiksliam fermentų projektavimui.
Ateities FrameDiff pastangos apima problemų, susijusių su daugybe biologinių medžiagų, pvz., vaistų, bendrumo gerinimą. Kitas išplėtimas yra apibendrinti modelius visiems biologiniams būdams, įskaitant DNR ir mažas molekules. Komanda teigia, kad išplėtus „FrameDiff“ mokymą apie svarbesnius duomenis ir patobulinus optimizavimo procesą, ji galėtų sukurti pagrindines struktūras, kurios galėtų pasigirti projektavimo galimybėmis, panašiomis į RFdiffusion, išsaugant būdingą „FrameDiff“ paprastumą.
„Iš anksto parengto struktūros prognozavimo modelio atmetimas [in FrameDiff] atveria galimybes greitai sukurti didelio ilgio struktūras“, – sako Harvardo universiteto skaičiavimo biologas Sergejus Ovčinikovas. Naujoviškas mokslininkų požiūris yra daug žadantis žingsnis siekiant įveikti dabartinių struktūrų prognozavimo modelių apribojimus. Nors tai dar tik parengiamieji darbai, tai yra drąsinantis žingsnis teisinga linkme. Dėl novatoriško šios MIT tyrimų komandos darbo baltymų dizaino vizija, atliekanti pagrindinį vaidmenį sprendžiant aktualiausius žmonijos iššūkius, atrodo vis labiau pasiekiama.
Yimas parašė šį dokumentą kartu su Kolumbijos universiteto postdoc Brian Trippe, Prancūzijos nacionalinio mokslinių tyrimų centro Paryžiaus duomenų mokslo centro tyrinėtoju Valentinu De Bortoli, Kembridžo universiteto postdoc Emile’u Mathieu ir Oksfordo universiteto statistikos profesoriumi bei DeepMind Arnaud Doucet vyresniuoju moksliniu mokslininku. MIT profesoriai Regina Barzilay ir Tommi Jaakkola patarė tyrimui.
Komandos darbą iš dalies palaikė MIT Abdul Latif Jameel mašininio mokymosi sveikatos klinika, EPSRC dotacijos ir „Microsoft Research“ ir Kembridžo universiteto klestėjimo partnerystė, Nacionalinio mokslo fondo absolventų mokslinių tyrimų stipendijų programa, NSF ekspedicijos stipendija, mašinų mokymasis farmacijos atradimams ir medicinos atradimų konsorciumui „Synthesis News“ , DARPA pagreitinto molekulinio atradimo programa ir Sanofi Computational Antibody Design dotacija. Šis tyrimas bus pristatytas liepos mėnesį vyksiančioje tarptautinėje mašininio mokymosi konferencijoje.