Mikrobų sekų duomenų bazėse yra daug informacijos apie fermentus ir kitas molekules, kurios galėtų būti pritaikytos biotechnologijoms. Tačiau pastaraisiais metais šios duomenų bazės išaugo taip, kad joms tapo sunku veiksmingai ieškoti dominančių fermentų.
Dabar mokslininkai iš MIT McGovern smegenų tyrimų instituto, MIT ir Harvardo plataus instituto bei Nacionalinio biotechnologijos informacijos centro (NCBI) Nacionaliniuose sveikatos institutuose sukūrė naują paieškos algoritmą, kuris nustatė 188 naujų rūšių. retos CRISPR sistemos bakterijų genomuose, apimančios tūkstančius atskirų sistemų. Kūrinys pasirodo šiandien m Mokslas.
Algoritmas, gautas iš novatoriško CRISPR tyrėjo profesoriaus Feng Zhang laboratorijos, naudoja didelių duomenų grupavimo metodus, kad galėtų greitai ieškoti didžiulių genominių duomenų kiekių. Komanda naudojo savo algoritmą, vadinamą greitu vietovių jautriu maišymu pagrįstu klasterizavimu (FLSHclust), kad išgautų tris pagrindines viešas duomenų bazes, kuriose yra duomenų iš įvairių neįprastų bakterijų, įskaitant tas, kurios randamos anglies kasyklose, alaus daryklose, Antarkties ežeruose ir šunų seilėse. . Mokslininkai aptiko stebėtinai daug ir įvairių CRISPR sistemų, įskaitant tas, kurios gali redaguoti žmogaus ląstelių DNR, kitas, kurios gali nukreipti RNR, ir daug kitų, turinčių daugybę kitų funkcijų.
Naujosios sistemos gali būti panaudotos redaguoti žinduolių ląsteles, turinčias mažiau pašalinių efektų nei dabartinės Cas9 sistemos. Jie taip pat vieną dieną galėtų būti naudojami kaip diagnostika arba kaip molekuliniai aktyvumo ląstelės viduje įrašai.
Tyrėjai teigia, kad jų paieška išryškina precedento neturintį CRISPR įvairovės ir lankstumo lygį ir, kad duomenų bazėms augant, greičiausiai dar bus atrasta daug retų sistemų.
„Biologinė įvairovė yra toks lobis, o kai mes ir toliau sekame daugiau genomų ir metagenominių mėginių, vis labiau reikia geresnių įrankių, tokių kaip FLSHclust, kad būtų galima ieškoti šios sekos erdvės ir rasti molekulinius brangakmenius“, – sako Zhang, bendradarbis. vyresnysis tyrimo autorius ir Jamesas ir Patricia Poitras, MIT neurologijos profesoriai, kartu paskyrę smegenų ir pažinimo mokslų bei biologinės inžinerijos katedrose. Zhang taip pat yra MIT McGovern smegenų tyrimų instituto tyrėjas, Broad instituto pagrindinis narys ir Howardo Hugheso medicinos instituto tyrėjas. Eugene’as Kooninas, žymus NCBI tyrėjas, taip pat yra vienas iš vyresniųjų tyrimo autorių.
Ieškome CRISPR
CRISPR, kuris reiškia sugrupuotus reguliariai tarpais esančius trumpus palindrominius pasikartojimus, yra bakterijų apsaugos sistema, kuri buvo sukurta į daugybę genomo redagavimo ir diagnostikos įrankių.
Norėdami išgauti baltymų ir nukleorūgščių sekų duomenų bazes naujoms CRISPR sistemoms, mokslininkai sukūrė algoritmą, pagrįstą metodu, pasiskolintu iš didžiųjų duomenų bendruomenės. Ši technika, vadinama vietos jautria maiša, sujungia objektus, kurie yra panašūs, bet nėra visiškai identiški. Naudojant šį metodą, komanda per kelias savaites galėjo ištirti milijardus baltymų ir DNR sekų – iš NCBI, viso genomo šratų duomenų bazės ir Jungtinio genomo instituto, o ankstesni metodai, ieškantys identiškų objektų, būtų užtrukę mėnesius. Jie sukūrė savo algoritmą, kad ieškotų genų, susijusių su CRISPR.
„Šis naujas algoritmas leidžia mums analizuoti duomenis per pakankamai trumpą laiką, kad galėtume iš tikrųjų atkurti rezultatus ir iškelti biologines hipotezes“, – sako Soumya Kannan, 23 m. daktarė, viena iš pirmųjų šio tyrimo autorių. Kannanas buvo Zhang laboratorijos absolventas, kai prasidėjo tyrimas, ir šiuo metu yra Harvardo universiteto doktorantas ir jaunesnysis bendradarbis. Han Altae-Tran PhD ’23, Zhang laboratorijos absolventas tyrimo metu ir šiuo metu Vašingtono universiteto doktorantas, buvo kitas pirmasis tyrimo autorius.
„Tai liudija, ką galite padaryti, kai tobulinate tyrinėjimo metodus ir naudojate kuo daugiau duomenų“, – sako Altae-Tran. „Tikrai įdomu, kad galime pagerinti paieškos mastą.
Naujos sistemos
Atlikdami savo analizę, Altae-Tran, Kannan ir jų kolegos pastebėjo, kad tūkstančiai jų rastų CRISPR sistemų pateko į keletą esamų ir daug naujų kategorijų. Laboratorijoje jie išsamiau ištyrė keletą naujų sistemų.
Jie rado keletą naujų žinomų I tipo CRISPR sistemų variantų, kuriuose naudojama kreipiamoji RNR, kuri yra 32 bazinių porų ilgio, o ne 20 nukleotidų Cas9 vadovas. Dėl ilgesnių orientacinių RNR šios I tipo sistemos gali būti naudojamos kuriant tikslesnę genų redagavimo technologiją, kuri yra mažiau linkusi redaguoti ne pagal tikslą. Zhang komanda parodė, kad dvi iš šių sistemų gali trumpai pakeisti žmogaus ląstelių DNR. Ir kadangi šios I tipo sistemos yra panašaus dydžio kaip CRISPR-Cas9, jos greičiausiai gali būti pristatytos į gyvūnų ar žmonių ląsteles naudojant tas pačias genų pristatymo technologijas, kurios šiandien naudojamos CRISPR.
Viena iš I tipo sistemų taip pat parodė „nešališką aktyvumą“ – platų nukleorūgščių skaidymąsi po to, kai CRISPR baltymas suriša savo tikslą. Mokslininkai naudojo panašias sistemas infekcinių ligų diagnostikai, pavyzdžiui, SHERLOCK, įrankį, galintį greitai aptikti vieną DNR arba RNR molekulę. Zhang komanda mano, kad naujosios sistemos gali būti pritaikytos ir diagnostikos technologijoms.
Tyrėjai taip pat atskleidė naujus veikimo mechanizmus kai kurioms IV tipo CRISPR sistemoms ir VII tipo sistemai, kuri tiksliai nukreipta į RNR, kuri gali būti naudojama redaguojant RNR. Kitos sistemos gali būti naudojamos kaip įrašymo įrankiai – molekulinis dokumentas, kada buvo išreikštas genas – arba kaip specifinio aktyvumo gyvoje ląstelėje jutikliai.
Kasybos duomenys
Mokslininkai teigia, kad jų algoritmas galėtų padėti ieškoti kitų biocheminių sistemų. „Šį paieškos algoritmą galėtų naudoti visi, norintys dirbti su šiomis didelėmis duomenų bazėmis, kad galėtų ištirti, kaip vystosi baltymai arba atrasti naujus genus“, – sako Altae-Tran.
Tyrėjai priduria, kad jų išvados ne tik parodo, kokios įvairios yra CRISPR sistemos, bet ir tai, kad dauguma jų yra retos ir randamos tik neįprastose bakterijose. „Kai kurios iš šių mikrobų sistemų buvo randamos tik vandenyje iš anglies kasyklų”, – sako Kannanas. „Jei kas nors tuo nebūtų domėjęsis, galbūt niekada nebūtume matę tų sistemų. Plėsti atrankos įvairovę yra tikrai svarbu, norint toliau plėsti to, ką galime atrasti, įvairovę.
Šį darbą parėmė Howardo Hugheso medicinos institutas; MIT K. Lisa Yang ir Hock E. Tan molekulinės terapijos centras; Plačiojo instituto programuojamos terapijos dovanų donorai; Pershing Square Foundation, William Ackman ir Neri Oxman; James ir Patricia Poitras; BT labdaros fondas; Asness šeimos fondas; Kennethas C. Griffinas; Phillipsų šeima; Davidas Chengas; ir Robertas Metcalfe’as.