Pagrindinės evoliucinio stiprinimo mokymosi tyrimų sritys. Kreditas: Hui Bai ir kt. Evoliucinis stiprinamasis mokymasis yra jaudinanti mašininio mokymosi sritis, sujungianti dviejų skirtingų metodų stipriąsias puses: sustiprinto mokymosi ir evoliucinio skaičiavimo. Evoliucinio sustiprinimo mokymosi metu protingas agentas išmoksta optimalių strategijų, aktyviai tyrinėdamas skirtingus būdus ir gaudamas atlygį už sėkmingą veiklą.
Ši novatoriška paradigma sujungia mokymąsi pastiprinimo bandymų ir klaidų būdu su evoliucinių algoritmų gebėjimu imituoti natūralią atranką, todėl sukuriama galinga dirbtinio intelekto kūrimo metodika, žadanti proveržio įvairiose srityse.
Buvo paskelbtas apžvalginis straipsnis apie evoliucinį stiprinimo mokymąsi Išmanusis kompiuteris. Jis atskleidžia naujausius pasiekimus, susijusius su evoliucinio skaičiavimo integravimu su mokymu, ir pateikia išsamią naujausių metodų apžvalgą.
Sustiprinimo mokymasis, mašininio mokymosi poskyris, orientuotas į algoritmų kūrimą, kurie mokosi priimti sprendimus remiantis atsiliepimais iš aplinkos. Įspūdingi sėkmingo sustiprinimo mokymosi pavyzdžiai yra AlphaGo ir neseniai futbolą žaidžiantys „Google DeepMind“ robotai.
Tačiau stiprinamasis mokymasis vis dar susiduria su keliais iššūkiais, įskaitant tyrinėjimo ir panaudojimo kompromisą, atlygio planavimą, apibendrinimą ir kreditų skyrimą.
Evoliucinis skaičiavimas, kuris imituoja natūralios evoliucijos procesą problemoms spręsti, siūlo galimą sustiprinto mokymosi problemų sprendimą. Sujungę šiuos du metodus, mokslininkai sukūrė evoliucinio sustiprinimo mokymosi sritį.
Evoliucinis stiprinimo mokymasis apima šešias pagrindines tyrimų sritis:
- Hiperparametrų optimizavimas: hiperparametrų optimizavimui gali būti naudojami evoliuciniai skaičiavimo metodai. Tai reiškia, kad jie gali automatiškai nustatyti geriausius sustiprinimo mokymosi sistemų nustatymus. Rankiniu būdu surasti geriausius nustatymus gali būti sudėtinga dėl daugybės susijusių veiksnių, tokių kaip algoritmo mokymosi greitis ir jo polinkis į būsimą atlygį. Be to, sustiprinimo mokymosi efektyvumas labai priklauso nuo naudojamo neuroninio tinklo architektūros, įskaitant tokius veiksnius kaip jo sluoksnių skaičius ir dydis.
- Politikos paieška: politikos paieška reiškia, kad reikia rasti geriausią požiūrį į užduotį eksperimentuojant su įvairiomis strategijomis, padedančiomis neuroniniais tinklais. Šie tinklai, panašūs į galingus skaičiuotuvus, apytiksliai atlieka užduotis ir naudoja gilaus mokymosi pažangą. Kadangi yra daug užduočių vykdymo galimybių, paieškos procesas primena naršymą didžiuliame labirinte. Stochastinis gradiento nusileidimas yra įprastas neuroninių tinklų mokymo ir naršymo šiame labirinte metodas. Evoliucinis skaičiavimas siūlo alternatyvius „neuroevoliucijos“ metodus, pagrįstus evoliucijos strategijomis, genetiniais algoritmais ir genetiniu programavimu. Šie metodai gali nustatyti geriausius neuroninių tinklų svorius ir kitas savybes, skirtas sustiprinti mokymąsi.
- Tyrinėjimas: sustiprinantys mokymosi agentai tobulėja sąveikaudami su aplinka. Per mažas tyrinėjimas gali lemti prastus sprendimus, o per daug tyrinėti kainuoja brangiai. Taigi yra kompromisas tarp agento tyrinėjimo, siekiant atrasti gerą elgesį, ir agento išnaudojimo atrastu geru elgesiu. Agentai tyrinėja savo veiksmams pridedant atsitiktinumo. Veiksmingas tyrinėjimas susiduria su iššūkiais: daugybe galimų veiksmų, retais ir uždelstais atlygiais, nenuspėjama aplinka ir sudėtingais kelių agentų scenarijais. Evoliuciniai skaičiavimo metodai sprendžia šiuos iššūkius skatindami konkurenciją, bendradarbiavimą ir lygiagretumą. Jie skatina tyrinėjimą per įvairovę ir vadovaujamą evoliuciją.
- Atlygio formavimas: Apdovanojimai yra svarbūs stiprinant mokymąsi, tačiau jie dažnai būna reti ir agentams sunku iš jų pasimokyti. Atlygio formavimas prideda papildomų smulkių atlygių, padedančių agentams geriau mokytis. Tačiau šie atlygiai gali pakeisti agentų elgesį nepageidaujamais būdais, o norint tiksliai išsiaiškinti, kokie turėtų būti šie papildomi atlygiai, kaip juos subalansuoti ir kaip priskirti kreditą keliems agentams, paprastai reikia specialių žinių apie atliekamą užduotį. Siekdami išspręsti atlygio planavimo iššūkį, mokslininkai naudojo evoliucinį skaičiavimą, kad pakoreguotų papildomus atlygius ir jų nustatymus tiek vieno agento, tiek kelių agentų sustiprinimo mokymosi metu.
- Mokymasis su metastiprinimu: Mokymosi meta-stiprinimu tikslas yra sukurti bendrą mokymosi algoritmą, kuris prisitaiko prie skirtingų užduočių, naudojant ankstesnių žinių žinias. Šis metodas sprendžia problemą, kai reikia daug pavyzdžių, kad kiekviena užduotis būtų išmokta nuo nulio atliekant tradicinį pastiprinimo mokymąsi. Tačiau užduočių, kurias galima išspręsti naudojant meta-stiprinimo mokymąsi, skaičius ir sudėtingumas vis dar yra ribotas, o su tuo susijusios skaičiavimo išlaidos yra didelės. Todėl modelio agnostinių ir labai lygiagrečių evoliucinio skaičiavimo savybių išnaudojimas yra perspektyvi kryptis, leidžianti išnaudoti visą meta-stiprinimo mokymosi potencialą, leidžiantį mokytis, apibendrinti ir būti skaičiavimo požiūriu veiksmingesniems realaus pasaulio scenarijuose.
- Mokymasis iš kelių tikslų: kai kuriose realaus pasaulio problemose yra keli tikslai, kurie prieštarauja vienas kitam. Kelių tikslų evoliucinis algoritmas gali subalansuoti šiuos tikslus ir pasiūlyti kompromisą, kai nė vienas sprendimas neatrodo geresnis už kitus. Kelių tikslų sustiprinimo mokymosi metodus galima suskirstyti į du tipus: tuos, kurie sujungia kelis tikslus į vieną, kad būtų galima rasti vieną geriausią sprendimą, ir tuos, kurie randa daugybę gerų sprendimų. Ir atvirkščiai, kai kurios vieno tikslo problemos gali būti naudingai suskirstytos į kelis tikslus, kad būtų lengviau spręsti problemas.
Evoliucinis sustiprinimo mokymasis gali išspręsti sudėtingas pastiprinimo mokymosi užduotis, net ir tais atvejais, kai atlygis yra retas arba klaidinantis. Tačiau tai reikalauja didelių skaičiavimo resursų, todėl tai yra brangu. Didėja veiksmingesnių metodų poreikis, įskaitant kodavimo, atrankos, paieškos operatorių, algoritminių struktūrų ir vertinimo patobulinimus.
Nors evoliucinis stiprinamasis mokymasis parodė daug žadančių rezultatų sprendžiant sudėtingas sustiprinto mokymosi problemas, vis dar įmanoma tobulėti. Didindami skaičiavimo efektyvumą ir tyrinėdami naujus etalonus, platformas ir programas, evoliucinio sustiprinimo mokymosi srities mokslininkai gali padaryti evoliucinius metodus dar efektyvesnius ir naudingesnius sprendžiant sudėtingas sustiprinimo mokymosi užduotis.
Daugiau informacijos: Hui Bai ir kt., Evoliucijos stiprinimo mokymasis: apklausa, Išmanusis kompiuteris (2023). DOI: 10.34133/computing.0025
Teikia išmanioji kompiuterija
Citata: Evoliucinis sustiprinimo mokymasis žada tolesnę mašininio mokymosi pažangą (2023 m. gegužės 19 d.), gauta 2023 m. gegužės 19 d. iš https://techxplore.com/news/2023-05-evolutionary-advances-machine.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.