Tai sena kaip laikas dilema. Penktadienio vakaras prabėgo, o jūs bandote vakarienei pasirinkti restoraną. Ar turėtumėte aplankyti savo mylimiausią girdyklą ar išbandyti naują įstaigą, tikėdamiesi atrasti ką nors pranašesnio? Potencialiai, bet tas smalsumas yra susijęs su rizika: jei išnagrinėsite naują variantą, maistas gali būti blogesnis. Kita vertus, jei laikysitės to, kas, jūsų manymu, veikia gerai, neišaugsite iš savo siauro kelio.
Smalsumas skatina dirbtinį intelektą tyrinėti pasaulį, šiuo metu beribiais atvejais – autonominė navigacija, robotų sprendimų priėmimas, sveikatos rezultatų optimizavimas ir kt. Mašinos tam tikrais atvejais naudoja „pastiprinimo mokymąsi“, kad pasiektų tikslą, kai dirbtinio intelekto agentas nuolat mokosi, kad būtų apdovanotas už gerą elgesį ir nubaustas už blogą. Kaip ir dilema, su kuria susiduria žmonės renkantis restoraną, šie agentai taip pat stengiasi subalansuoti laiką, praleistą ieškant geresnių veiksmų (tyrinėjimas) ir laiką, praleistą atliekant veiksmus, kurie praeityje davė didelį atlygį (išnaudojimas). Per didelis smalsumas gali atitraukti agentą nuo gerų sprendimų, o per mažai reiškia, kad agentas niekada neatras gerų sprendimų.
Siekdami sukurti dirbtinio intelekto agentus su reikiama smalsumo doze, MIT Netikėtinos AI laboratorijos ir Kompiuterių mokslų bei dirbtinio intelekto laboratorijos (CSAIL) mokslininkai sukūrė algoritmą, kuris įveikia pernelyg „smalsaus“ AI problemą ir blaškymąsi dėl duota užduotis. Jų algoritmas automatiškai padidina smalsumą, kai to reikia, ir slopina jį, jei agentas pakankamai prižiūrimas iš aplinkos, kad žinotų, ką daryti.
Išbandytas su daugiau nei 60 vaizdo žaidimų, algoritmas galėjo sėkmingai atlikti tiek sudėtingas, tiek lengvas tyrinėjimo užduotis, kai ankstesni algoritmai galėjo įveikti tik sudėtingą arba paprastą domeną. Taikydami šį metodą AI agentai naudoja mažiau duomenų, kad išmoktų priimti sprendimus, kurie padidina paskatas.
„Jei gerai įvaldysite tyrinėjimo ir eksploatavimo kompromisą, galėsite greičiau išmokti teisingų sprendimų priėmimo taisyklių – bet kam mažiau reikės daug duomenų, o tai gali reikšti neoptimalią medicininę priežiūrą, mažesnį pelną svetainėms ir robotus, kurie Išmokti daryti teisingus dalykus“, – sako Pulkit Agrawal, MIT elektrotechnikos ir kompiuterių mokslo (EECS) docentas, Improbable AI Lab direktorius ir CSAIL filialas, kuris prižiūrėjo tyrimą. „Įsivaizduokite svetainę, kuri bando išsiaiškinti savo turinio dizainą ar išdėstymą, kuris padidins pardavimą. Jei žvalgyba-eksploatacija atliekama netinkamai, priartėjimas prie tinkamo svetainės dizaino ar tinkamo svetainės išdėstymo užtruks ilgai, o tai reiškia pelno praradimą. Arba sveikatos priežiūros įstaigoje, pvz., sergant Covid-19, gali būti sprendimų, kuriuos reikia priimti gydant pacientą, seka, o jei norite naudoti sprendimų priėmimo algoritmus, jis turi greitai ir efektyviai mokytis. nenorite neoptimalaus sprendimo gydant daug pacientų. Tikimės, kad šis darbas bus pritaikytas tokio pobūdžio realaus pasaulio problemoms.
Sunku aprėpti smalsumo psichologinio pagrindo niuansus; pagrindinės iššūkių ieškančio elgesio neuroninės koreliacijos yra menkai suprantamas reiškinys. Bandymai suskirstyti elgesį į kategorijas apėmė tyrimus, kurie gilinosi į mūsų impulsų, nepritekliaus jautrumo ir socialinio bei streso tolerancijos tyrimą.
Sutvirtinus mokymąsi, šis procesas yra emociškai „apkarpomas“ ir nupjaunamas iki kaulų, tačiau jis sudėtingas technine puse. Iš esmės agentas turėtų būti smalsus tik tada, kai nėra pakankamai priežiūros, kad galėtų išbandyti įvairius dalykus, o jei yra priežiūra, jis turi pakoreguoti smalsumą ir jį sumažinti.
Kadangi didelę žaidimų dalį sudaro maži agentai, lakstantys po fantastišką aplinką, ieškantys atlygio ir atliekantys ilgą veiksmų seką, kad pasiektų kokį nors tikslą, tai atrodė kaip logiška tyrėjų algoritmo bandymų vieta. Eksperimentų metu mokslininkai suskirstė tokius žaidimus kaip „Mario Kart“ ir „Montezumos kerštas“ į du skirtingus segmentus: vieną, kur priežiūra buvo menka, o tai reiškia, kad agentas turėjo mažiau nurodymų, kurie buvo laikomi „sunkiais“ tyrinėjimo žaidimais, o antrame, kur priežiūra buvo didesnė. tankūs arba „lengvi“ tyrinėjimo žaidimai.
Tarkime, pavyzdžiui, „Mario Kart“ pašalinate tik visus apdovanojimus, kad nežinotumėte, kada priešas jus pašalins. Negaunate jokio atlygio, kai renkate monetą ar šokate per vamzdžius. Agentui tik pabaigoje pasakoma, kaip gerai sekėsi. Tai būtų retos priežiūros atvejis. Smalsumą skatinantys algoritmai šiame scenarijuje puikiai veikia.
Tačiau dabar tarkime, kad agentui bus suteikta griežta priežiūra – atlygis už šokinėjimą per vamzdžius, monetų rinkimą ir priešų pašalinimą. Čia algoritmas be smalsumo veikia tikrai gerai, nes už jį dažnai atlyginama. Bet jei vietoj to pasirinksite algoritmą, kuris taip pat naudoja smalsumą, jis mokosi lėtai. Taip yra todėl, kad smalsus agentas gali bandyti bėgti greitai įvairiais būdais, šokti, eiti į kiekvieną žaidimo ekrano dalį – tai dalykai, kurie yra įdomūs, bet nepadeda agentui sėkmingai žaisti. Tačiau komandos algoritmas nuolat veikė gerai, nepaisant to, kokioje aplinkoje ji buvo.
Būsimas darbas gali apimti grįžimą prie tyrinėjimų, kurie ilgus metus džiugino ir kamuoja psichologus: tinkama smalsumo metrika – niekas iš tikrųjų nežino, kaip matematiškai apibrėžti smalsumą.
„Nuolatos geros naujosios problemos našumo siekimas yra labai sudėtingas – todėl patobulinę tyrinėjimo algoritmus galime sutaupyti jūsų pastangų derindami algoritmą pagal jūsų dominančias problemas“, – sako Zhang-Wei Hong, EECS doktorantas, CSAIL filialas ir bendradarbis. – pagrindinis autorius kartu su Eric Chen ’20, MEng ’21 naujame dokumente apie darbą. „Mums reikia smalsumo, kad galėtume išspręsti itin sudėtingas problemas, tačiau kai kuriose problemose tai gali pakenkti našumui. Siūlome algoritmą, kuris pašalina naštą, susijusią su tyrinėjimo ir eksploatavimo pusiausvyros derinimu. Anksčiau, pavyzdžiui, prireikė savaitės, kad sėkmingai išspręstume problemą, su šiuo nauju algoritmu patenkinamų rezultatų galime pasiekti per kelias valandas.
„Vienas didžiausių iššūkių dabartiniam AI ir pažinimo mokslui yra suderinti tyrinėjimą ir išnaudojimą – informacijos ir atlygio paieškas. Vaikai tai daro sklandžiai, tačiau tai sudėtinga skaičiuojant“, – pažymi projekte nedalyvavusi Kalifornijos universiteto Berklyje psichologijos profesorė ir filosofijos profesorė Alison Gopnik. „Šiame dokumente naudojami įspūdingi nauji metodai, kad tai būtų atlikta automatiškai, sukuriant agentą, galintį sistemingai suderinti smalsumą apie pasaulį ir atlygio troškimą. [thus taking] dar vienas žingsnis link dirbtinio intelekto agentų (beveik) protingumo kaip vaikai.
„Vidinis atlygis, pavyzdžiui, smalsumas, yra esminis veiksnys, padedantis agentams atrasti naudingą įvairų elgesį, tačiau tai neturėtų kainuoti dėl to, kad jie gerai atlieka tam tikrą užduotį. Tai svarbi AI problema, o dokumentas suteikia galimybę subalansuoti šį kompromisą“, – priduria Carnegie Mellon universiteto docentas Deepak Pathak, kuris taip pat nedalyvavo darbe. „Būtų įdomu pamatyti, kaip tokie metodai ne tik žaidimus, bet ir realaus pasaulio robotų agentai.
Chen, Hong ir Agrawal parašė straipsnį kartu su Joni Pajarinen, Aalto universiteto docentu ir Darmštato TU Pažangių autonominių sistemų grupės tyrimų vadovu. Tyrimą iš dalies palaikė MIT-IBM Watson AI Lab, DARPA Machine Common Sense programa, JAV oro pajėgų tyrimų laboratorijos Armijos tyrimų biuras ir Jungtinių Valstijų oro pajėgų dirbtinio intelekto greitintuvas. Straipsnis bus pristatytas Neural Information and Processing Systems (NeurIPS) 2022 konferencijoje.

