Įsivaizduokite dvi komandas, kurios rungtyniauja futbolo aikštėje. Žaidėjai gali bendradarbiauti siekdami tikslo ir konkuruoti su kitais žaidėjais, kurių interesai prieštarauja. Taip ir veikia žaidimas.
Sukurti dirbtinio intelekto agentus, kurie išmoktų konkuruoti ir bendradarbiauti taip pat veiksmingai kaip žmonės, tebėra sudėtinga problema. Pagrindinis iššūkis yra leisti AI agentams numatyti būsimą kitų agentų elgesį, kai jie visi mokosi vienu metu.
Dėl šios problemos sudėtingumo dabartiniai metodai yra trumparegiški; agentai gali tik atspėti keletą artimiausių savo komandos draugų ar konkurentų judesių, o tai ilgainiui lemia prastus rezultatus.
Mokslininkai iš MIT, MIT-IBM Watson AI Lab ir kitur sukūrė naują metodą, suteikiantį AI agentams toliaregišką perspektyvą. Jų mašininio mokymosi sistema leidžia bendradarbiaujantiems ar konkurencingiems dirbtinio intelekto agentams apsvarstyti, ką kiti agentai darys laikui artėjant prie begalybės, o ne tik atlikdami kelis tolesnius veiksmus. Tada agentai atitinkamai pritaiko savo elgesį, kad paveiktų kitų agentų elgesį ateityje ir rastų optimalų, ilgalaikį sprendimą.
Šią sistemą galėtų naudoti autonominių bepiločių orlaivių grupė, dirbanti kartu, kad surastų pasiklydusį keliautoją tankiame miške, arba savarankiškai važiuojantys automobiliai, kurie stengiasi užtikrinti keleivių saugumą, numatydami būsimų kitų transporto priemonių, važiuojančių judriu greitkeliu, judėjimą.
„Kai dirbtinio intelekto agentai bendradarbiauja arba konkuruoja, svarbiausia, kada ateityje jų elgesys susilieja. Kelyje yra daug laikinų elgsenų, kurios ilgainiui neturi didelės reikšmės. Mums iš tikrųjų rūpi pasiekti tokį suderintą elgesį, ir dabar turime matematinį būdą tai padaryti“, – sako Dong-Ki Kimas, MIT informacijos ir sprendimų sistemų laboratorijos (LIDS) absolventas ir pagrindinis straipsnio autorius. aprašant šią sistemą.
Vyresnysis autorius yra Jonathanas P. Howas, Richardo C. Maclaurino aeronautikos ir astronautikos profesorius ir MIT-IBM Watson AI laboratorijos narys. Tarp bendraautorių yra kiti iš MIT-IBM Watson AI Lab, IBM tyrimų, Mila-Quebec dirbtinio intelekto instituto ir Oksfordo universiteto. Tyrimas bus pristatytas Neuroninių informacijos apdorojimo sistemų konferencijoje.
Šiame demonstraciniame vaizdo įraše raudonasis robotas, kuris buvo apmokytas naudojant tyrėjų mašininio mokymosi sistemą, gali nugalėti žaliąjį robotą išmokdamas efektyvesnio elgesio, kuris pasinaudoja nuolat besikeičiančia priešininko strategija.
Daugiau agentų, daugiau problemų
Tyrėjai sutelkė dėmesį į problemą, vadinamą kelių agentų sustiprinimo mokymusi. Sustiprinimo mokymasis yra mašininio mokymosi forma, kai AI agentas mokosi bandymų ir klaidų būdu. Tyrėjai suteikia agentui atlygį už „gerą“ elgesį, padedantį pasiekti tikslą. Agentas pritaiko savo elgesį, kad padidintų tą atlygį, kol galiausiai tampa užduoties ekspertu.
Tačiau kai daug bendradarbiaujančių ar konkuruojančių agentų vienu metu mokosi, viskas tampa vis sudėtingesnė. Kadangi agentai svarsto daugiau būsimų savo kolegų agentų žingsnių ir kaip jų pačių elgesys daro įtaką kitiems, problemai greitai reikia per daug skaičiavimo galios, kad ją būtų galima veiksmingai išspręsti. Štai kodėl kiti metodai yra skirti tik trumpam laikotarpiui.
„AI tikrai nori galvoti apie žaidimo pabaigą, bet jie nežino, kada žaidimas baigsis. Jie turi galvoti, kaip pritaikyti savo elgesį iki begalybės, kad ateityje galėtų laimėti. Mūsų dokumente iš esmės siūlomas naujas tikslas, leidžiantis dirbtiniam intelektui galvoti apie begalybę“, – sako Kim.
Tačiau kadangi neįmanoma įjungti begalybės į algoritmą, mokslininkai sukūrė savo sistemą taip, kad agentai sutelktų dėmesį į būsimą tašką, kuriame jų elgesys susilies su kitų agentų elgesiu, vadinamu pusiausvyra. Pusiausvyros taškas lemia ilgalaikį agentų veikimą, o kelių agentų scenarijuje gali egzistuoti kelios pusiausvyros. Todėl veiksmingas agentas aktyviai veikia kitų agentų elgesį ateityje taip, kad jie pasiektų pageidaujamą pusiausvyrą iš agento perspektyvos. Jei visi agentai daro įtaką vienas kitam, jie susilieja su bendra koncepcija, kurią mokslininkai vadina „aktyvia pusiausvyra“.
Jų sukurta mašininio mokymosi sistema, žinoma kaip TOLIAU (kuri reiškia VISIŠKAI stiprinančią aktyvią įtaką su vidutiniu atlygiu), leidžia agentams išmokti pritaikyti savo elgesį, kai jie sąveikauja su kitais agentais, kad pasiektų šią aktyvią pusiausvyrą.
FURTHER tai daro naudodamas du mašininio mokymosi modulius. Pirmasis, išvadų modulis, leidžia agentui atspėti būsimą kitų agentų elgesį ir jų naudojamus mokymosi algoritmus, remiantis tik jų ankstesniais veiksmais.
Ši informacija įvedama į sustiprinimo mokymosi modulį, kurį agentas naudoja pritaikydamas savo elgesį ir paveikti kitus agentus tokiu būdu, kuris maksimaliai padidintų jo atlygį.
„Iššūkis buvo mąstymas apie begalybę. Turėjome naudoti daugybę skirtingų matematinių įrankių, kad tai įgalintume, ir padaryti tam tikras prielaidas, kad tai veiktų praktiškai“, – sako Kim.
Laimėjimas ilgainiui
Jie išbandė savo požiūrį su kitomis kelių agentų sustiprinimo mokymosi sistemomis pagal kelis skirtingus scenarijus, įskaitant porą robotų, kovojančių sumo stiliumi, ir mūšį, kuriame dvi 25 agentų komandos susipriešina viena su kita. Abiem atvejais DI agentai, naudojantys FURTHER, dažniau laimėjo žaidimus.
Kadangi jų požiūris yra decentralizuotas, o tai reiškia, kad agentai išmoksta laimėti žaidimus savarankiškai, jis taip pat yra labiau keičiamas nei kiti metodai, kuriems reikalingas centrinis kompiuteris agentams valdyti, aiškina Kim.
Tyrėjai naudojo žaidimus, kad išbandytų savo požiūrį, tačiau TOLIAU galėtų būti naudojami bet kokios rūšies daugiafunkcėms problemoms spręsti. Pavyzdžiui, ją galėtų taikyti ekonomistai, siekiantys sukurti patikimą politiką situacijose, kai daugelis sąveikaujančių teisių turi elgseną ir interesus, kurie laikui bėgant keičiasi.
Ekonomika yra viena iš taikomųjų programų, kurias Kim ypač džiaugiasi studijomis. Jis taip pat nori gilintis į aktyvios pusiausvyros sampratą ir toliau tobulinti TOLESNIĄ sistemą.
Šį tyrimą iš dalies finansuoja MIT-IBM Watson AI Lab.

