Kadangi dirbtinis intelektas vis geriau atlieka užduotis, kai jos yra tik žmonių rankose, pavyzdžiui, vairuoti automobilius, daugelis mano, kad komandinis intelektas yra kita riba. Ateityje žmonės ir dirbtinis intelektas bus tikri partneriai atliekant daug svarbių darbų, pavyzdžiui, atliekant sudėtingas operacijas ar ginantis nuo raketų. Tačiau prieš komandinio intelekto pradžią, mokslininkai turi įveikti problemą, kuri naikina bendradarbiavimą: žmonės dažnai nemėgsta savo dirbtinio intelekto partnerių arba jais nepasitiki.
Nauji tyrimai rodo, kad įvairovė yra pagrindinis parametras, padedantis dirbtinį intelektą tapti geresniu komandos žaidėju.
MIT Linkolno laboratorijos mokslininkai nustatė, kad dirbtinio intelekto modelio mokymas su matematiškai „įvairiais“ komandos draugais pagerina jo gebėjimą bendradarbiauti su kitais dirbtiniu intelektu, su kuriais jis niekada anksčiau nedirbo, kortų žaidime „Hanabi“. Be to, „Facebook“ ir „Google“ „DeepMind“ vienu metu paskelbė nepriklausomą darbą, kuris taip pat įtraukė įvairovę į mokymus, kad pagerintų žmogaus ir AI bendradarbiavimo žaidimų rezultatus.
Apibendrinant, rezultatai gali nukreipti mokslininkus į daug žadantį kelią kuriant dirbtinį intelektą, kuris gali gerai veikti ir būti vertinamas kaip geras bendradarbis žmonių komandos draugų.
„Faktas, kad mes visi suartėjome prie tos pačios minties – kad jei norite bendradarbiauti, turite treniruotis įvairioje aplinkoje – yra jaudinantis dalykas, ir aš tikiu, kad tai tikrai yra pagrindas būsimam darbui kooperatyvo AI srityje“, – sako Rossas Allenas, Linkolno laboratorijos Dirbtinio intelekto technologijų grupės tyrėjas ir šio darbo, kuris neseniai buvo pristatytas tarptautinėje autonominių agentų ir kelių agentų sistemų konferencijoje, bendraautoris.
Prisitaikymas prie skirtingo elgesio
Daugelis tyrinėtojų naudojasi bendradarbiaujančiam DI Hanabi kaip bandymų poligonas. Hanabi meta iššūkį žaidėjams kartu sukrauti kortas eilės tvarka, tačiau žaidėjai gali matyti tik savo komandos draugų kortas ir vienas kitam gali duoti tik menkus patarimus, kokias korteles jie turi.
Ankstesniame eksperimente Linkolno laboratorijos mokslininkai išbandė vieną geriausių pasaulyje Hanabi AI modelių su žmonėmis. Jie nustebo sužinoję, kad žmonėms labai nepatiko žaisti su šiuo AI modeliu, vadindami jį painiu ir nenuspėjamu komandos draugu. „Išvada buvo tokia, kad mums kažko trūksta apie žmogaus pirmenybę, ir mes dar nemokame kurti modelių, kurie galėtų veikti realiame pasaulyje“, – sako Allenas.
Komanda susimąstė, ar kooperatyvų dirbtinį intelektą reikia mokyti kitaip. Naudojamas AI tipas, vadinamas sustiprinimo mokymusi, tradiciškai išmoksta, kaip sėkmingai atlikti sudėtingas užduotis, atrandant, kurie veiksmai duoda didžiausią atlygį. Jis dažnai mokomas ir vertinamas pagal panašius į save modelius. Dėl šio proceso atsirado neprilygstamų DI žaidėjų konkurenciniuose žaidimuose, tokiuose kaip „Go“ ir „StarCraft“.
Tačiau norint, kad dirbtinis intelektas būtų sėkmingas bendradarbis, jam gali ne tik rūpėti, kad bendradarbiaudamas su kitais AI būtų kuo didesnis atlygis. agentai, bet ir kažkas labiau būdingo: supratimas ir prisitaikymas prie kitų stipriųjų pusių ir pageidavimų. Kitaip tariant, ji turi mokytis iš įvairovės ir prie jos prisitaikyti.
Kaip išugdote tokį įvairovę mąstantį dirbtinį intelektą? Tyrėjai sugalvojo „Any-Play“. „Any-Play“ padidina dirbtinio intelekto „Hanabi“ agento mokymo procesą pridėdamas kitą tikslą, be žaidimo rezultato padidinimo: AI turi teisingai nustatyti savo mokymo partnerio žaidimo stilių.
Šis žaidimas -style mokymo partnerio viduje užkoduotas kaip latentinis arba paslėptas kintamasis, kurį agentas turi įvertinti. Ji tai daro stebėdama savo partnerio elgesio skirtumus. Siekiant šio tikslo, partneris taip pat turi išmokti skirtingų, atpažįstamų elgesio būdų, kad šiuos skirtumus perteiktų priimančiam AI agentui.
Nors šis įvairovės skatinimo metodas nėra naujas DI srityje, komanda išplėtė koncepciją į bendradarbiavimo žaidimus, panaudodama šiuos skirtingus žaidimo būdus kaip įvairius žaidimo stilius.
„AI agentas turi stebėti savo partnerių elgesį, kad nustatytų tą paslaptį. indėlį, kurį jie gavo, ir turi pritaikyti šiuos įvairius žaidimo būdus, kad gerai veiktų žaidime. Idėja yra ta, kad taip būtų sukurtas AI agentas, kuris gerai žaidžia su skirtingais žaidimo stiliais“, – sako pirmasis autorius ir Carnegie Mellon universiteto doktorantas. Keane’as Lucasas, kuris eksperimentams vadovavo kaip buvęs stažuotojas laboratorijoje.
Žaidimas su kitais, nepanašiais į save Komanda papildė ankstesnį Hanabi modelį (kurį ankstesniame eksperimente išbandė su žmonėmis) su Any-Play traukiniu. procesas. Norėdami įvertinti, ar šis metodas pagerino bendradarbiavimą, tyrėjai sujungė modelį su „nepažįstamais žmonėmis“ – daugiau nei 100 kitais „Hanabi“ modeliais, su kuriais anksčiau niekada nebuvo susidūrę ir kurie buvo apmokyti pagal atskirus algoritmus – milijonais. dviejų žaidėjų rungtynių.
„Any-Play“ poros pranoko visas kitas komandas, kai tos komandos taip pat buvo sudarytos iš partnerių, kurie algoritmiškai nepanašūs vienas į kitą. Jis taip pat buvo geresnis, kai bendradarbiauja su originalia versija, kuri nebuvo apmokyta naudojant „Any-Play“.
Tyrėjai mano, kad tokio tipo vertinimas, vadinamas kryžminiu algoritmų žaidimu, yra geriausias prognozuotojas. kaip bendradarbiaujantis AI veiktų realiame pasaulyje su žmonėmis. Kryžminis algoritmas prieštarauja dažniau naudojamam vertinimui, kuris tikrina modelį, palyginti su jo paties kopijomis arba modeliais, parengtais pagal tą patį algoritmą.
„Mes teigiame, kad ta kita metrika gali būti klaidinanti. ir dirbtinai padidinti tariamą kai kurių algoritmų našumą. Vietoj to norime žinoti: „Jei tiesiog netikėtai atsidursite partneryje, neturėdami išankstinių žinių, kaip jie žais, kaip gerai galite bendradarbiauti?“ Manome, kad tokio tipo vertinimas yra realiausias vertinant bendradarbiaujantį AI su kitais AI, kai negalite išbandyti su žmonėmis”, – sako Allenas.
Iš tiesų, šis darbas neišbandė „Any-Play“ su žmonėmis. Tačiau „DeepMind“ paskelbtuose tyrimuose, kurie buvo paskelbti kartu su laboratorijos darbu, buvo naudojamas panašus įvairovės ugdymo metodas, kad būtų sukurtas AI agentas, žaidžiantis bendradarbiavimo žaidimą „Overcooked“ su žmonėmis. „AI agentas ir žmonės parodė nepaprastai gerą bendradarbiavimą, ir šis rezultatas verčia mus manyti, kad mūsų požiūris, kuris, mūsų manymu, yra dar labiau apibendrintas, taip pat gerai veiktų su žmonėmis“, – sako Allenas. „Facebook“ panašiai naudojo įvairovę mokymuose, kad pagerintų „Hanabi AI“ agentų bendradarbiavimą, tačiau naudojo sudėtingesnį algoritmą, dėl kurio reikėjo pakeisti „Hanabi“ žaidimo taisykles, kad būtų galima valdyti. balai iš tikrųjų yra geri žmogaus pirmenybės rodikliai, tebėra hipotezė. Siekdami sugrąžinti žmogaus perspektyvą į procesą, mokslininkai nori pabandyti susieti žmogaus jausmus, susijusius su dirbtiniu intelektu, pvz., nepasitikėjimą ar sumišimą, su konkrečiais tikslais, naudojamais AI mokymui. Šių ryšių atskleidimas galėtų padėti paspartinti pažangą šioje srityje.
„Iššūkis kuriant DI, siekiant geriau dirbti su žmonėmis, yra tas, kad mes negalime turėti žmonių, kurie treniruočių metu pasakytų AI, kas jiems patinka ir kas nepatinka. Tai užtruktų milijonus valandų. ir asmenybes. Bet jei galėtume rasti kokį nors kiekybiškai įvertinamą žmogaus pirmenybės pavyzdį – o galbūt mokymų įvairovė yra vienas iš tokių pavyzdžių – tada galbūt radome būdą įveikti šį iššūkį“, – sako Allenas.