Kas nors, besimokantis žaisti tenisą, gali pasamdyti mokytoją, kuris padėtų greičiau išmokti. Kadangi šis mokytojas (tikiuosi) yra puikus tenisininkas, kartais bandymas tiksliai mėgdžioti mokytoją nepadės mokiniui mokytis. Galbūt mokytojas pašoka aukštai į orą, kad mikliai grąžintų salvę. Studentė, negalėdama to nukopijuoti, gali pati pabandyti kelis kitus judesius, kol įgis įgūdžių, kurių jai reikia norint grąžinti salves.
Kompiuterių mokslininkai taip pat gali naudoti „mokytojų“ sistemas, kad išmokytų kitą mašiną atlikti užduotį. Tačiau, kaip ir mokantis žmogus, mokinio mašina susiduria su dilema – žinoti, kada sekti mokytoją, o kada tyrinėti pačiam. Šiuo tikslu mokslininkai iš MIT ir Technion, Izraelio technologijos instituto, sukūrė algoritmą, kuris automatiškai ir savarankiškai nustato, kada mokinys turėtų mėgdžioti mokytoją (žinomas kaip imitacinis mokymasis), o kada jis turėtų mokytis per bandymus ir klaidas (žinoma). kaip pastiprinimo mokymasis).
Jų dinaminis požiūris leidžia mokiniui nukrypti nuo mokytojo kopijavimo, kai mokytojas yra per geras arba nepakankamai geras, bet vėliau vėl seka mokytoją, jei tai padarys pasiekti geresnių rezultatų ir greičiau mokytis.
Kai mokslininkai išbandė šį metodą modeliavimuose, jie nustatė, kad jų mokymosi iš bandymų ir klaidų ir mokymosi imitacijos derinys leido studentams efektyviau išmokti užduotis nei metodai, naudojantys tik vieną mokymosi tipą.
Šis metodas galėtų padėti tyrėjams pagerinti mašinų, kurios bus naudojamos neapibrėžtose realaus pasaulio situacijose, pavyzdžiui, robotas, mokomas naršyti pastate, kurio jis dar nematė, mokymo procesą.
„Šis mokymosi bandymų ir klaidų ir sekimo mokytoju derinys yra labai galingas. Tai suteikia mūsų algoritmui galimybę išspręsti labai sudėtingas užduotis, kurių negalima išspręsti naudojant bet kurią techniką atskirai“, – sako Idan Shenfeld, elektros inžinerijos ir kompiuterių mokslų (EECS) magistrantūros studentas ir pagrindinis šios technikos straipsnio autorius.
Shenfeld parašė darbą su bendraautoriais Zhang-Wei Hong, EECS absolventu; Avivas Tamaras; Techniono elektros inžinerijos ir informatikos docentas; ir vyresnysis autorius Pulkit Agrawal, Improbable AI Lab direktorius ir Kompiuterių mokslų ir dirbtinio intelekto laboratorijos docentas. Tyrimas bus pristatytas tarptautinėje mašininio mokymosi konferencijoje.
Išlaikyti pusiausvyrą
Daugelis esamų metodų, kuriais siekiama išlaikyti pusiausvyrą tarp mokymosi imitacijos ir mokymosi pastiprinimo, tai daroma taikant žiaurios jėgos bandymus ir klaidas. Tyrėjai pasirenka svertinį dviejų mokymosi metodų derinį, atlieka visą mokymo procedūrą ir kartoja procesą, kol suras optimalią pusiausvyrą. Tai neefektyvu ir dažnai taip brangu, kad net neįmanoma.
„Norime algoritmų, kurie būtų principingi, sureguliuotų kuo mažiau rankenėlių ir pasiektų aukštą našumą – šie principai paskatino mūsų tyrimus“, – sako Agrawal.
Kad tai pasiektų, komanda į problemą žiūrėjo kitaip nei ankstesniame darbe. Jų sprendimas apima dviejų studentų mokymą: vieną su svertiniu mokymosi pastiprinimu ir mokymosi imitavimu deriniu, o antrąjį, kuris gali naudoti tik sustiprintą mokymąsi, kad išmoktų tą pačią užduotį.
Pagrindinė idėja yra automatiškai ir dinamiškai koreguoti pirmojo studento sustiprinimo ir imitavimo mokymosi tikslų svorį. Čia pasirodo antrasis mokinys. Tyrėjų algoritmas nuolat lygina du studentus. Jei mokytojui sekasi geriau, algoritmas daugiau dėmesio skiria mokymuisi imitaciniam mokymuisi, kad mokytų mokinį, tačiau jei tas, kuris naudoja tik bandymus ir klaidas, pradeda gauti geresnių rezultatų, jis daugiau dėmesio skirs mokymuisi iš pastiprinimo mokymosi.
Dinamiškai nustatant, kuriuo metodu pasiekiami geresni rezultatai, algoritmas yra prisitaikantis ir gali pasirinkti geriausią techniką viso mokymo proceso metu. Dėl šios naujovės ji gali efektyviau mokyti studentus nei kiti metodai, kurie nėra prisitaikantys, sako Shenfeld.
„Vienas iš pagrindinių iššūkių kuriant šį algoritmą buvo tai, kad prireikė šiek tiek laiko, kol supratome, kad neturėtume treniruoti dviejų studentų savarankiškai. Tapo aišku, kad turime sujungti agentus, kad jie dalytųsi informacija, o tada rasti tinkamą būdą techniškai pagrįsti šią intuiciją“, – sako Shenfeldas.
Sunkių problemų sprendimas
Norėdami išbandyti savo požiūrį, mokslininkai atliko daugybę imituojamų mokytojų ir studentų mokymo eksperimentų, pavyzdžiui, naršydami lavos labirintu, kad pasiektų kitą tinklelio kampą. Šiuo atveju mokytojas turi viso tinklelio žemėlapį, o mokinys gali matyti tik priešais esantį lopą. Jų algoritmas pasiekė beveik tobulą sėkmės rodiklį visose testavimo aplinkose ir buvo daug greitesnis nei kiti metodai.
Kad jų algoritmas būtų dar sunkesnis, jie sukūrė modeliavimą, kuriame dalyvavo robotinė ranka su prisilietimo jutikliais, bet be regėjimo, kuri turi perorientuoti rašiklį į tinkamą pozą. Mokytojas turėjo prieigą prie tikrosios rašiklio orientacijos, o mokinys galėjo naudoti tik jutiklinius jutiklius, kad nustatytų rašiklio orientaciją.
Jų metodas pranoko kitus, kurie naudojo tik imitacinį mokymąsi arba tik stiprinimo mokymąsi.
Objektų perorientavimas yra viena iš daugelio manipuliavimo užduočių, kurias turės atlikti būsimas namų robotas – vizija, kurią įgyvendina Improbable AI laboratorija, priduria Agrawal.
Mokytojo ir studento mokymasis buvo sėkmingai pritaikytas mokant robotus atlikti sudėtingą manipuliavimą objektais ir judėjimą modeliuojant, o tada perkelti išmoktus įgūdžius į realų pasaulį. Taikant šiuos metodus, mokytojas turi privilegijuotą informaciją, pasiekiamą iš modeliavimo, kurios mokinys neturės, kai jis bus naudojamas realiame pasaulyje. Pavyzdžiui, mokytojas žinos išsamų pastato žemėlapį, kuriame mokinys robotas mokomas naršyti naudodamas tik jo fotoaparato užfiksuotus vaizdus.
„Dabartiniai studentų ir mokytojų mokymosi robotikos metodai neatsižvelgia į mokinio nesugebėjimą mėgdžioti mokytojo, todėl jų veikla yra ribota. Naujasis metodas atveria kelią geresniems robotams kurti“, – sako Agrawal.
Be geresnių robotų, mokslininkai mano, kad jų algoritmas gali pagerinti našumą įvairiose programose, kuriose naudojamas imitacinis arba sustiprinamas mokymasis. Pavyzdžiui, dideli kalbų modeliai, tokie kaip GPT-4, labai gerai atlieka daugybę užduočių, todėl galbūt būtų galima naudoti didelį modelį kaip mokytoją, kad būtų galima išmokyti mažesnį studento modelį, kad jis būtų dar „geresnis“ atliekant vieną konkrečią užduotį. . Kita įdomi kryptis yra ištirti mašinų ir žmonių, besimokančių iš atitinkamų mokytojų, panašumus ir skirtumus. Tokia analizė gali padėti pagerinti mokymosi patirtį, teigia mokslininkai.
„Įdomu šiame požiūryje, palyginti su susijusiais metodais, yra tai, kaip jis atrodo patikimas įvairiems parametrų pasirinkimams, o sričių, kuriose jis rodo daug žadančių rezultatų, įvairovė“, – sako Vašingtono universiteto docentas Abhishek Gupta, nedalyvavęs Šis darbas. „Nors dabartinis rezultatų rinkinys daugiausia yra modeliuojamas, aš labai džiaugiuosi, kad ateityje bus galima pritaikyti šį darbą problemoms, susijusioms su atmintimi ir samprotavimu, naudojant įvairius būdus, pavyzdžiui, lytėjimo jutimą.
„Šis darbas pristato įdomų metodą, kaip pakartotinai panaudoti ankstesnį skaičiavimo darbą stiprinant mokymąsi. Visų pirma, jų siūlomas metodas gali panaudoti neoptimalią mokytojo politiką kaip vadovą, tuo pačiu išvengiant kruopštaus hiperparametrų tvarkaraščio, reikalingo ankstesniuose metoduose, siekiant suderinti mokytojo imitavimo ir atlygio už užduotį optimizavimo tikslus“, – priduria Rishabh Agarwal, „Google Brain“ vyresnysis mokslo darbuotojas. taip pat nedalyvavo šiame tyrime. „Tikimės, kad dėl šio darbo reinkarnuojantis sustiprinimo mokymasis taikant išmoktą politiką taptų ne toks sudėtingas.
Šį tyrimą iš dalies palaikė MIT-IBM Watson AI Lab, Hyundai Motor Company, DARPA Machine Common Sense programa ir Karinio jūrų laivyno tyrimų biuras.

