Neuroniniai tinklai, mašininio mokymosi modelio tipas, naudojami siekiant padėti žmonėms atlikti įvairias užduotis, pradedant numatymu, ar kieno nors kredito balas yra pakankamai aukštas, kad būtų galima gauti paskolą, iki diagnozavimo, ar pacientas neserga tam tikra liga. Tačiau mokslininkai vis dar turi tik ribotą supratimą apie tai, kaip šie modeliai veikia. Ar tam tikras modelis yra optimalus tam tikrai užduočiai, lieka atviras klausimas.
MIT mokslininkai rado keletą atsakymų. Jie atliko neuroninių tinklų analizę ir įrodė, kad juos galima suprojektuoti taip, kad jie būtų „optimalūs“, tai reiškia, kad jie sumažina tikimybę, kad skolininkai ar pacientai bus klaidingai klasifikuojami į netinkamą kategoriją, kai tinklams suteikiama daug pažymėtų mokymo duomenų. Norint pasiekti optimalumą, šie tinklai turi būti sukurti pagal tam tikrą architektūrą.
Tyrėjai išsiaiškino, kad tam tikrose situacijose kūrėjai praktiškai nenaudoja kūrimo blokų, leidžiančių optimaliam neuroniniam tinklui būti. Tyrėjai teigia, kad šie optimalūs statybiniai blokai, gauti naudojant naują analizę, yra netradiciniai ir anksčiau nebuvo svarstomi.
Šią savaitę publikuotame dokumente Nacionalinės mokslų akademijos darbai, jie apibūdina šiuos optimalius kūrimo blokus, vadinamus aktyvinimo funkcijomis, ir parodo, kaip juos galima naudoti kuriant neuroninius tinklus, užtikrinančius geresnį našumą bet kuriame duomenų rinkinyje. Rezultatai galioja net tada, kai neuroniniai tinklai auga labai dideli. Šis darbas galėtų padėti kūrėjams pasirinkti tinkamą aktyvinimo funkciją, leidžiančią jiems kurti neuroninius tinklus, kurie tiksliau klasifikuoja duomenis įvairiose taikymo srityse, aiškina vyresnioji autorė Caroline Uhler, Elektros inžinerijos ir kompiuterių mokslo (EECS) katedros profesorė. .
„Nors tai yra naujos aktyvinimo funkcijos, kurios niekada anksčiau nebuvo naudojamos, tai yra paprastos funkcijos, kurias kas nors iš tikrųjų galėtų įgyvendinti tam tikrai problemai spręsti. Šis darbas tikrai parodo, kaip svarbu turėti teorinių įrodymų. Jei vadovausitės principingu šių modelių supratimu, tai iš tikrųjų gali paskatinti jus naudoti naujas aktyvinimo funkcijas, apie kurias kitaip niekada nepagalvotumėte“, – sako Uhleris, kuris taip pat yra Broad Institute Erico ir Wendy Schmidt centro direktorius. MIT ir Harvardo mokslininkas, MIT Informacijos ir sprendimų sistemų laboratorijos (LIDS) ir jos Duomenų, sistemų ir visuomenės instituto (IDSS) mokslininkas.
Prie Uhlerio prisijungia pagrindinis autorius Adityanarayananas Radhakrishnanas, EECS absolventas ir Erico ir Wendy Schmidt centro bendradarbis bei Michailas Belkinas, Kalifornijos universiteto San Diego Halicioğlu duomenų mokslo instituto profesorius.
Aktyvinimo tyrimas
Neuroninis tinklas yra mašininio mokymosi modelio tipas, laisvai pagrįstas žmogaus smegenimis. Daugelis tarpusavyje sujungtų mazgų arba neuronų sluoksnių apdoroja duomenis. Tyrėjai moko tinklą atlikti užduotį, parodydami jam milijonus pavyzdžių iš duomenų rinkinio.
Pavyzdžiui, tinklui, kuris buvo išmokytas klasifikuoti vaizdus į kategorijas, tarkime, šunys ir katės, suteikiamas vaizdas, užkoduotas kaip skaičiai. Tinklas atlieka keletą sudėtingų daugybos operacijų sluoksnis po sluoksnio, kol rezultatas yra tik vienas skaičius. Jei šis skaičius teigiamas, tinklas atvaizdą priskiria šuniui, o jei neigiamas – katei.
Aktyvinimo funkcijos padeda tinklui išmokti sudėtingų įvesties duomenų šablonų. Jie tai daro taikydami vieno sluoksnio išvesties transformaciją prieš siunčiant duomenis į kitą sluoksnį. Kai mokslininkai kuria neuroninį tinklą, jie pasirenka vieną aktyvinimo funkciją. Jie taip pat pasirenka tinklo plotį (kiek neuronų yra kiekviename sluoksnyje) ir gylį (kiek sluoksnių yra tinkle).
„Pasirodo, jei imsitės standartinių aktyvinimo funkcijų, kuriomis žmonės naudojasi praktiškai, ir nuolat didinsite tinklo gylį, tai tikrai siaubingai veikia. Mes parodome, kad jei projektuosite naudodami skirtingas aktyvinimo funkcijas, kai gausite daugiau duomenų, jūsų tinklas taps vis geresnis“, – sako Radhakrishnanas.
Jis ir jo bendradarbiai ištyrė situaciją, kai neuroninis tinklas yra be galo gilus ir platus – tai reiškia, kad tinklas kuriamas nuolat pridedant daugiau sluoksnių ir mazgų – ir yra išmokytas atlikti klasifikavimo užduotis. Klasifikuodamas tinklas išmoksta suskirstyti įvestus duomenis į atskiras kategorijas.
„Švarus vaizdas“
Atlikę išsamią analizę, mokslininkai nustatė, kad yra tik trys būdai, kaip tokio tipo tinklas gali išmokti klasifikuoti įvestis. Vienas metodas klasifikuoja įvestį pagal daugumą įvesties treniruočių duomenų; jei yra daugiau šunų nei kačių, kiekviena nauja įvestis bus šuo. Kitas metodas klasifikuojamas pasirenkant mokymo duomenų taško etiketę (šuo ar katė), kuri labiausiai primena naują įvestį.
Trečiasis metodas klasifikuoja naują įvestį pagal svertinį visų į jį panašių mokymo duomenų taškų vidurkį. Jų analizė rodo, kad tai vienintelis iš trijų metodų, užtikrinantis optimalų našumą. Jie nustatė aktyvinimo funkcijų rinkinį, kuris visada naudoja šį optimalų klasifikavimo metodą.
„Tai buvo vienas iš labiausiai stebinančių dalykų – nesvarbu, ką pasirinksite aktyvinimo funkcijai, tai bus tik vienas iš šių trijų klasifikatorių. Turime formules, kurios aiškiai nurodys, kuri iš šių trijų tai bus. Tai labai švarus vaizdas“, – sako jis.
Jie išbandė šią teoriją atlikdami keletą klasifikavimo lyginamosios analizės užduočių ir nustatė, kad daugeliu atvejų tai pagerino našumą. Neuroninių tinklų kūrėjai galėtų naudoti savo formules, kad pasirinktų aktyvinimo funkciją, kuri pagerintų klasifikavimo našumą, sako Radhakrishnanas.
Ateityje mokslininkai nori panaudoti tai, ką išmoko, analizuodami situacijas, kai turi ribotą duomenų kiekį ir tinklus, kurie nėra be galo platūs ar gilūs. Jie taip pat nori taikyti šią analizę tais atvejais, kai duomenys neturi etikečių.
„Gilaus mokymosi metu norime sukurti teoriškai pagrįstus modelius, kad galėtume juos patikimai panaudoti tam tikroje svarbioje aplinkoje. Tai yra daug žadantis būdas pasiekti kažką panašaus – kurti architektūras teoriškai pagrįstu būdu, o tai duoda geresnių rezultatų praktikoje“, – sako jis.
Šį darbą iš dalies palaikė Nacionalinis mokslo fondas, Karinio jūrų laivyno tyrimų biuras, MIT-IBM Watson AI Lab, Erico ir Wendy Schmidtų centras Broad Institute ir Simonso tyrėjo apdovanojimas.

