Ar įmanoma sukurti mašininio mokymosi modelius be mašininio mokymosi patirties?
Jimas Collinsas, MIT Biologijos inžinerijos katedros Termeer medicinos inžinerijos ir mokslo profesorius ir gyvybės mokslų fakultetas, vadovaujantis Abdul Latif Jameel mašininio mokymosi sveikatos klinikoje (Jameel klinika), kartu su daugeliu kolegų nusprendė išspręsti šią problemą. šią problemą susidūrus su panašia mįsle. Atviros prieigos dokumentas apie jų siūlomą sprendimą, pavadintą „BioAutoMATED“, buvo paskelbtas birželio 21 d Ląstelių sistemos.
Mašininio mokymosi tyrėjų samdymas mokslo ir inžinerijos laboratorijoms gali būti daug laiko ir finansiškai brangus procesas. Net ir dirbant su mašininio mokymosi ekspertu, pasirinkus tinkamą modelį, suformatavus modelio duomenų rinkinį, tada jį tiksliai sureguliavus, gali labai pasikeisti modelio veikimas ir reikės daug darbo.
„Kiek laiko paprastai skirsite duomenims ruošti ir transformuoti, vykdydami mašininio mokymosi projektą? klausia 2022 m. „Google“ kurso apie mašininio mokymosi pagrindus (ML). Siūlomi du pasirinkimai: „Mažiau nei pusė projekto laiko“ arba „Daugiau nei pusė projekto laiko“. Jei atspėtumėte pastarąjį, būtumėte teisus; „Google“ teigia, kad duomenims suformatuoti reikia daugiau nei 80 procentų projekto laiko ir net neatsižvelgiama į laiką, reikalingą problemai nustatyti mašininio mokymosi sąlygomis.
„Prireiktų daugelio savaičių pastangų, kad išsiaiškintume tinkamą mūsų duomenų rinkinio modelį, o tai tikrai per didelis žingsnis daugeliui žmonių, norinčių naudotis mašininiu mokymusi ar biologija“, – sako penkto kurso doktorantė Jacqueline Valeri. biologinės inžinerijos specialistas Collinso laboratorijoje, kuris yra pirmasis šio straipsnio bendraautoris.
BioAutoMATED yra automatizuota mašininio mokymosi sistema, kuri gali pasirinkti ir sukurti atitinkamą modelį tam tikram duomenų rinkiniui ir netgi pasirūpinti kruopščia išankstinio duomenų apdorojimo užduotimi, sutrumpindama mėnesius trunkantį procesą iki kelių valandų. Automatizuotos mašininio mokymosi (AutoML) sistemos vis dar yra gana besivystančiose stadijose, o šiuo metu daugiausia dėmesio skiriama vaizdų ir teksto atpažinimui, tačiau dažniausiai jos nenaudojamos biologijos poskyriuose, pažymi pirmasis bendraautoris ir Jameel Clinic doktorantas Luisas Soenksenas. „20.
„Pagrindinė biologijos kalba yra pagrįsta sekomis“, – aiškina Soenksenas, įgijęs daktaro laipsnį MIT Mechanikos inžinerijos katedroje. „Biologinės sekos, tokios kaip DNR, RNR, baltymai ir glikanai, turi nuostabią informacinę savybę – yra iš esmės standartizuotos, kaip abėcėlė. Daug AutoML įrankių sukurta tekstui, todėl buvo prasminga jį išplėsti [biological] sekos“.
Be to, dauguma AutoML įrankių gali tyrinėti ir kurti tik sumažintus modelių tipus. „Tačiau jūs negalite nuo pat projekto pradžios žinoti, kuris modelis bus geriausias jūsų duomenų rinkiniui“, – sako Valeri. „Įtraukdami kelis įrankius į vieną skėtinį įrankį, mes tikrai suteikiame daug didesnę paieškos erdvę, nei bet kuris atskiras AutoML įrankis galėtų pasiekti vienas.
„BioAutoMATED“ prižiūrimų ML modelių repertuarą sudaro trys tipai: dvejetainiai klasifikavimo modeliai (duomenų padalijimas į dvi klases), kelių klasių klasifikavimo modeliai (duomenų padalijimas į kelias klases) ir regresijos modeliai (ištisinių skaitinių verčių pritaikymas arba pagrindinių ryšių stiprumo matavimas). kintamieji). BioAutoMATED netgi gali padėti nustatyti, kiek duomenų reikia tinkamai apmokyti pasirinktą modelį.
„Mūsų įrankis tiria modelius, kurie geriau tinka mažesniems, retesniems biologiniams duomenų rinkiniams, taip pat sudėtingesniems neuroniniams tinklams”, – sako Valeri. Tai yra pranašumas mokslinių tyrimų grupėms, turinčioms naujų duomenų, kurie gali būti tinkami arba netinka mašininio mokymosi problemai. .
„Naujų ir sėkmingų eksperimentų vykdymas biologijos ir mašininio mokymosi sankirtoje gali kainuoti daug pinigų”, – aiškina Soenksen. „Šiuo metu į biologiją orientuotos laboratorijos turi investuoti į didelę skaitmeninę infrastruktūrą ir AI-ML apmokytus žmogiškuosius išteklius, kad galėtų net tai padaryti. pažiūrėkite, ar jų idėjos yra pasirengusios įgyvendinti. Mes norime sumažinti šias kliūtis biologijos srities ekspertams. Naudodami BioAutoMATED, mokslininkai turi laisvę atlikti pradinius eksperimentus, kad įvertintų, ar verta samdyti mašininio mokymosi ekspertą, kuris sukurtų kitą modelį tolesniems eksperimentams.
Atvirojo kodo kodas yra viešai prieinamas ir, kaip pabrėžia mokslininkai, jį lengva paleisti. „Norėtume, kad žmonės imtųsi mūsų kodo, jį patobulintų ir bendradarbiautų su didesnėmis bendruomenėmis, kad tai taptų įrankiu visiems“, – sako Soenksen. „Mes norime suteikti pirmenybę biologinių tyrimų bendruomenei ir didinti informuotumą apie AutoML metodus, nes tai yra labai naudingas būdas, galintis sujungti griežtą biologinę praktiką su greita AI-ML praktika, geriau nei tai pasiekiama šiandien.
Collinsas, vyresnysis šio straipsnio autorius, taip pat yra susijęs su MIT medicinos inžinerijos ir mokslo institutu, Harvardo-MIT sveikatos mokslų ir technologijų programa, MIT ir Harvardo plačiuoju institutu bei Wyss institutu. Papildomi MIT autoriai yra Katherine M. Collins ’21; Nicolaas M. Angenent-Mari PhD ’21; Feliksas Wongas, buvęs IMES Biologinės inžinerijos katedros ir Plačiojo instituto postdoktorius; ir Timothy K. Lu, biologinės inžinerijos ir elektros inžinerijos bei informatikos profesorius.
Šį darbą iš dalies parėmė Gynybos grėsmių mažinimo agentūros dotacija, Gynybos pažangių tyrimų projektų agentūros SD2 programa, Paul G. Allen Frontiers grupė, Harvardo universiteto Wyss biologiškai įkvėptos inžinerijos institutas; MIT-Takeda stipendija, Siebel fondo stipendija, CONACyT stipendija, MIT-TATA centro stipendija, Johnson & Johnson bakalauro studijų stipendija, Barry Goldwater stipendija, Marshall stipendija, Cambridge Trust ir Nacionalinis alergijos ir infekcijų institutas Nacionalinių sveikatos institutų ligos. Šis darbas yra „Antibiotics-AI“ projekto, kurį remia „Audacious Project“, „Flu Lab, LLC“, „Sea Grape Foundation“, Rosamund Zander ir Hansjorg Wyss, „Wyss Foundation“ ir anoniminio donoro, dalis.

