Naujas MIT ir Browno universiteto mokslininkų tyrimas apibūdina keletą savybių, kurios atsiranda mokant giliuosius klasifikatorius, dirbtinio neuroninio tinklo tipą, dažniausiai naudojamą klasifikavimo užduotims, tokioms kaip vaizdo klasifikavimas, kalbos atpažinimas ir natūralios kalbos apdorojimas.
Šiandien žurnale paskelbtas dokumentas „Dinamika giliuose klasifikatoriuose, mokoma taikant kvadratinį praradimą: normalizavimas, žemas rangas, nervų žlugimas ir apibendrinimo ribos“. Tyrimasyra pirmasis tokio pobūdžio, kuris teoriškai tiria giliųjų klasifikatorių mokymo dinamiką su kvadrato praradimu ir kaip susipina tokios savybės kaip rango sumažinimas, nervų žlugimas ir neuronų aktyvavimo bei sluoksnių svorio dvilypumas.
Tyrime autoriai sutelkė dėmesį į dviejų tipų giluminius klasifikatorius: visiškai sujungtus giluminius tinklus ir konvoliucinius neuroninius tinklus (CNN).
Ankstesnis tyrimas išnagrinėjo struktūrines savybes, kurios vystosi dideliuose neuroniniuose tinkluose paskutiniuose mokymo etapuose. Šiame tyrime daugiausia dėmesio buvo skiriama paskutiniam tinklo sluoksniui ir nustatyta, kad gilieji tinklai, išmokyti pritaikyti mokymo duomenų rinkinį, ilgainiui pasieks būseną, vadinamą „nervų žlugimu“. Kai įvyksta neuronų kolapsas, tinklas susieja kelis tam tikros klasės pavyzdžius (pvz., kačių vaizdus) su vienu tos klasės šablonu. Idealiu atveju kiekvienos klasės šablonai turėtų būti kuo toliau vienas nuo kito, kad tinklas galėtų tiksliai klasifikuoti naujus pavyzdžius.
MIT grupė, įsikūrusi MIT smegenų, protų ir mašinų centre, ištyrė sąlygas, kuriomis tinklai gali pasiekti neuronų žlugimą. Giliuose tinkluose, kuriuose yra trys komponentai: stochastinis gradiento nusileidimas (SGD), svorio mažėjimo reguliavimas (WD) ir svorio normalizavimas (WN), bus rodomas nervinis kolapsas, jei jie bus išmokyti pritaikyti savo treniruočių duomenis. MIT grupė ėmėsi teorinio požiūrio, palyginti su ankstesnio tyrimo empiriniu požiūriu, įrodydama, kad nervų kolapsas atsiranda sumažinus kvadrato praradimą naudojant SGD, WD ir WN.
Bendraautorius ir MIT McGovern instituto postdoc Akshay Rangamani teigia: „Mūsų analizė rodo, kad neuronų žlugimas atsiranda sumažinus kvadrato praradimą naudojant labai išraiškingus gilius neuroninius tinklus. Tai taip pat pabrėžia pagrindinius vaidmenis, kuriuos atlieka svorio mažėjimo reguliavimas ir stochastinio gradiento nusileidimas, skatinant sprendimus link nervų žlugimo.
Svorio mažinimas yra reguliavimo metodas, neleidžiantis tinklui per daug pritaikyti treniruočių duomenų, sumažinant svorių dydį. Svorio normalizavimas išskaido tinklo svorio matricas taip, kad jų skalė būtų panaši. Žemas rangas reiškia matricos savybę, kai ji turi nedaug nulinių vienaskaitos reikšmių. Apibendrinimo ribos suteikia garantijas dėl tinklo gebėjimo tiksliai numatyti naujus pavyzdžius, kurių jis nematė mokymo metu.
Autoriai nustatė, kad tas pats teorinis stebėjimas, numatantis žemo rango paklaidą, taip pat numato vidinį SGD triukšmą svorio matricose ir tinklo išvestyje. Šį triukšmą sukelia ne SGD algoritmo atsitiktinumas, o įdomus dinaminis kompromisas tarp rango sumažinimo ir duomenų pritaikymo, kuris yra vidinis triukšmo šaltinis, panašus į tai, kas vyksta dinaminėse sistemose chaotiško režimo metu. Tokia atsitiktinė paieška gali būti naudinga apibendrinant, nes ji gali užkirsti kelią per daug pritaikyti.
„Įdomu tai, kad šis rezultatas patvirtina klasikinę apibendrinimo teoriją, rodančią, kad tradicinės ribos yra prasmingos. Jame taip pat pateikiamas teorinis paaiškinimas, kodėl atliekant daugybę negausių tinklų, pvz., CNN, užduočių, tankių tinklų atžvilgiu yra daug geresnių rezultatų“, – komentuoja bendraautorius ir MIT McGovern instituto postdoc Tomer Galanti. Tiesą sakant, autoriai įrodo naujas normomis pagrįstas apibendrinimo ribas CNN su lokalizuotais branduoliais, tai yra tinklas, kurio svorio matricose yra nedidelis ryšys.
Šiuo atveju apibendrinimas gali būti daug geresnis nei tankiai sujungti tinklai. Šis rezultatas patvirtina klasikinę apibendrinimo teoriją, parodydamas, kad jos ribos yra prasmingos, ir prieštarauja daugeliui naujausių straipsnių, kuriuose išreiškiama abejonė dėl praeities požiūrio į apibendrinimą. Jame taip pat pateikiamas teorinis paaiškinimas dėl geresnių retų tinklų, tokių kaip CNN, našumo tankių tinklų atžvilgiu. Iki šiol mašininio mokymosi teorija beveik visiškai ignoravo faktą, kad CNN, o ne tankūs tinklai yra giliųjų tinklų sėkmės istorija. Vietoj to, čia pateikta teorija rodo, kad tai yra svarbi įžvalga, kodėl gilieji tinklai veikia taip gerai, kaip veikia.
„Šis tyrimas yra viena iš pirmųjų teorinių analizių, apimančių optimizavimą, apibendrinimą ir aproksimavimą giliuose tinkluose, ir suteikia naujų įžvalgų apie savybes, kurios atsiranda mokymo metu”, – sako bendraautorius Tomaso Poggio, Eugene’o McDermott’o smegenų ir smegenų katedros profesorius. Kognityviniai mokslai MIT ir vienas iš Smegenų, protų ir mašinų centro direktoriaus. „Mūsų rezultatai gali padėti suprasti, kodėl gilus mokymasis veikia taip pat gerai.