Kai gilaus mokymosi modeliai yra naudojami realiame pasaulyje, galbūt siekiant aptikti finansinį sukčiavimą, susijusį su kredito kortelių veikla arba nustatyti vėžį medicininiuose vaizduose, jie dažnai gali pranokti žmones.
Bet ko tiksliai mokosi šie gilaus mokymosi modeliai? Ar modelis, išmokytas pastebėti odos vėžį klinikiniuose vaizduose, pavyzdžiui, iš tikrųjų išmoksta vėžinio audinio spalvas ir tekstūras, ar jis pažymi kai kurias kitas savybes ar modelius?
Šie galingi mašininio mokymosi modeliai paprastai yra pagrįsti dirbtiniais neuroniniais tinklais, kuriuose gali būti milijonai mazgų, kurie apdoroja duomenis, kad galėtų prognozuoti. Dėl sudėtingumo šiuos modelius tyrėjai dažnai vadina „juodosiomis dėžėmis“, nes net juos statantys mokslininkai nesupranta visko, kas vyksta po gaubtu.
Stefanie Jegelka nepatenkinta tuo „juodosios dėžės“ paaiškinimu. Naujai einantis MIT Elektros inžinerijos ir kompiuterių mokslų katedros docentas Jegelka gilinasi į gilų mokymąsi, kad suprastų, ko šie modeliai gali išmokti ir kaip jie elgiasi, ir kaip šiuose modeliuose sukurti tam tikrą išankstinę informaciją.
„Galiausiai tai, ko išmoks giluminio mokymosi modelis, priklauso nuo daugybės veiksnių. Tačiau praktikoje aktualaus supratimo sukūrimas padės mums sukurti geresnius modelius ir suprasti, kas vyksta jų viduje, kad žinotume, kada galime įdiegti modelį, o kada – ne. Tai labai svarbu“, – sako Jegelka, kuris taip pat yra Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) bei Duomenų, sistemų ir visuomenės instituto (IDSS) narys.
Jegelka ypač domisi mašininio mokymosi modelių optimizavimu, kai įvesties duomenys pateikiami grafikų pavidalu. Grafiko duomenys kelia specifinių iššūkių: Pavyzdžiui, informaciją duomenyse sudaro informacija apie atskirus mazgus ir kraštus, taip pat struktūra – kas su kuo susijusi. Be to, grafikai turi matematinę simetriją, į kurią turi būti atsižvelgta mašininio mokymosi modelyje, kad, pavyzdžiui, tas pats grafikas visada lemtų tą patį numatymą. Sukurti tokias simetrijas į mašininio mokymosi modelį paprastai nėra lengva.
Paimkite, pavyzdžiui, molekules. Molekulės gali būti pavaizduotos kaip grafikai, kurių viršūnės atitinka atomus ir briaunas, atitinkančias cheminius ryšius tarp jų. Vaistų kompanijos gali norėti panaudoti gilųjį mokymąsi, kad greitai nuspėtų daugelio molekulių savybes ir sumažintų skaičių, kurį jos turi fiziškai išbandyti laboratorijoje.
Jegelka tiria metodus, kaip sukurti matematinius mašininio mokymosi modelius, kurie gali veiksmingai priimti grafiko duomenis kaip įvestį ir išvesti ką nors kita, šiuo atveju numatant molekulės chemines savybes. Tai ypač sudėtinga, nes molekulės savybes lemia ne tik joje esantys atomai, bet ir ryšiai tarp jų.
Kiti mašininio mokymosi diagramose pavyzdžiai apima srauto nukreipimą, lustų dizainą ir rekomendacijų sistemas.
Šių modelių kūrimą dar labiau apsunkina tai, kad jiems mokyti naudojami duomenys dažnai skiriasi nuo duomenų, kuriuos modeliai mato praktiškai. Galbūt modelis buvo apmokytas naudojant mažus molekulinius grafikus arba eismo tinklus, tačiau diagramos, kurias jis mato įdiegus, yra didesnės arba sudėtingesnės.
Ko šiuo atveju mokslininkai gali tikėtis išmokti iš šio modelio ir ar jis vis tiek veiks praktiškai, jei realaus pasaulio duomenys skiriasi?
„Jūsų modelis negalės išmokti visko dėl kai kurių kompiuterių mokslo sudėtingumo problemų, tačiau tai, ką galite išmokti ir ko negalite išmokti, priklauso nuo to, kaip nustatote modelį“, – sako Jegelka.
Ji sprendžia šį klausimą derindama savo aistrą algoritmams ir diskrečią matematiką su jauduliu dėl mašininio mokymosi.
Nuo drugelių iki bioinformatikos
Jegelka užaugo mažame Vokietijos miestelyje, o mokslu susidomėjo dar būdama vidurinės mokyklos moksleivė; palaikanti mokytoja paskatino ją dalyvauti tarptautiniame gamtos mokslų konkurse. Ji ir jos komandos draugai iš JAV ir Honkongo laimėjo apdovanojimą už sukurtą svetainę apie drugelius trimis kalbomis.
„Savo projektui nufotografavome sparnų nuotraukas su skenuojančiu elektroniniu mikroskopu vietiniame taikomųjų mokslų universitete. Taip pat „Mercedes Benz“ gavau galimybę naudoti greitaeigę kamerą – ši kamera dažniausiai filmavo vidaus degimo variklius –, kuria fiksavau sulėtintą drugelio sparnų judėjimo vaizdo įrašą. Tai buvo pirmas kartas, kai iš tikrųjų susisiekiau su mokslu ir tyrinėjimais“, – prisimena ji.
Susidomėjęs biologija ir matematika, Jegelka nusprendė studijuoti bioinformatiką Tiubingeno universitete ir Teksaso universitete Ostine. Ji turėjo keletą galimybių atlikti mokslinius tyrimus kaip bakalauro studijų pakopa, įskaitant stažuotę kompiuterinių neuromokslų srityje Džordžtauno universitete, tačiau nebuvo tikra, kokios karjeros siekti.
Kai grįžo į paskutinius koledžo metus, Jegelka apsigyveno pas du kambario draugus, kurie dirbo moksliniais asistentais Makso Planko institute Tiubingene.
„Jie dirbo su mašininiu mokymusi, ir tai man atrodė labai šauniai. Turėjau rašyti bakalauro darbą, todėl institute paklausiau, ar jie turi man projektą. Aš pradėjau dirbti su mašininiu mokymusi Max Planck institute ir man tai patiko. Ten sužinojau tiek daug ir tai buvo puiki vieta tyrimams“, – sako ji.
Ji liko Makso Planko institute, kad baigtų magistro darbą, o vėliau Makso Planko institute ir Šveicarijos federaliniame technologijos institute įgijo mašininio mokymosi doktorantūrą.
Savo doktorantūroje ji ištyrė, kaip diskrečiosios matematikos sąvokos gali padėti tobulinti mašininio mokymosi metodus.
Mokyti modelius mokytis
Kuo daugiau Jegelka sužinojo apie mašininį mokymąsi, tuo labiau ją sudomino iššūkiai suprasti, kaip modeliai elgiasi ir kaip valdyti šį elgesį.
„Galite tiek daug nuveikti naudodamiesi mašininiu mokymusi, bet tik tuo atveju, jei turite tinkamą modelį ir duomenis. Tai ne tik juodosios dėžės dalykas, kurį mesti į duomenis ir jis veikia. Jūs iš tikrųjų turite galvoti apie tai, jo savybes ir tai, ką norite, kad modelis išmoktų ir darytų“, – sako ji.
Baigęs doktorantūrą Kalifornijos universitete Berklyje, Jegelka patraukė mokslinius tyrimus ir nusprendė tęsti karjerą akademinėje bendruomenėje. Ji įstojo į MIT fakultetą 2015 m. kaip docentė.
„Nuo pat pradžių man labai patiko MIT tai, kad žmonėms labai rūpi moksliniai tyrimai ir kūrybiškumas. Būtent tai aš labiausiai vertinu MIT. Žmonės čia tikrai vertina originalumą ir tyrimų gilumą“, – sako ji.
Šis dėmesys kūrybiškumui leido Jegelkai tyrinėti daugybę temų.
Bendradarbiaudama su kitais MIT fakultetais, ji studijuoja mašininio mokymosi programas biologijos, vaizdo gavimo, kompiuterinio regėjimo ir medžiagų mokslo srityse.
Tačiau tai, kas iš tikrųjų skatina Jegelką, yra mašininio mokymosi pagrindų ir pastaruoju metu tvirtumo problemos tyrimas. Dažnai modelis gerai veikia naudojant mokymo duomenis, tačiau jo našumas pablogėja, kai jis naudojamas naudojant šiek tiek skirtingus duomenis. Sukūrus ankstesnes žinias į modelį, jis gali tapti patikimesnis, tačiau suprasti, kokios informacijos reikia, kad modelis būtų sėkmingas ir kaip ją sukurti, nėra taip paprasta, sako ji.
Ji taip pat tiria būdus, kaip pagerinti mašininio mokymosi modelių našumą vaizdų klasifikavimui.
Vaizdų klasifikavimo modeliai yra visur – nuo veido atpažinimo sistemų mobiliuosiuose telefonuose iki įrankių, atpažįstančių netikras paskyras socialinėje žiniasklaidoje. Šiems modeliams reikia didžiulio duomenų kiekio mokymui, bet kadangi žmonėms brangu rankiniu būdu žymėti milijonus vaizdų, tyrėjai dažnai naudoja nepažymėtus duomenų rinkinius, kad iš anksto apmokytų modelius.
Tada šie modeliai pakartotinai panaudoja išmoktas reprezentacijas, kai vėliau tikslinami konkrečiai užduočiai.
Idealiu atveju tyrėjai nori, kad modelis išmoktų kuo daugiau per parengiamąjį mokymą, kad galėtų pritaikyti šias žinias savo tolesniam darbui. Tačiau praktikoje šie modeliai dažnai išmoksta tik keletą paprastų koreliacijų – pavyzdžiui, kad vienas vaizdas šviečia saulėje, o kitas – šešėlyje, ir naudoja šiuos „sparčiuosius klavišus“ vaizdams klasifikuoti.
„Mes parodėme, kad tai yra „kontrastinio mokymosi“ problema, kuri yra standartinė išankstinio mokymo technika tiek teoriškai, tiek empiriškai. Tačiau taip pat parodome, kad modifikuodami duomenų tipus, kuriuos rodote modelį, galite paveikti informacijos, kurią modelis išmoks reprezentuoti, rūšis. Tai vienas žingsnis siekiant suprasti, ką modeliai iš tikrųjų darys praktiškai“, – sako ji.
Tyrėjai vis dar nesupranta visko, kas vyksta gilaus mokymosi modelyje, ar išsamios informacijos apie tai, kaip jie gali paveikti tai, ko modelis mokosi ir kaip jis elgiasi, tačiau Jegelka nekantrauja toliau tyrinėti šias temas.
„Dažnai mašininio mokymosi metu matome, kad kažkas vyksta praktiškai ir bandome tai suprasti teoriškai. Tai didžiulis iššūkis. Norite sukurti supratimą, kuris atitiktų tai, ką matote praktiškai, kad galėtumėte padaryti geriau. Mes vis dar tik pradedame tai suprasti“, – sako ji.
Už laboratorijos ribų Jegelka yra muzikos, meno, kelionių ir dviračių mėgėjas. Tačiau šiais laikais didžiąją dalį laisvo laiko jai patinka leisti su ikimokyklinio amžiaus dukra.

