Norėdami išmokyti dirbtinio intelekto agentą naujos užduoties, pavyzdžiui, kaip atidaryti virtuvės spintelę, tyrėjai dažnai naudoja mokymąsi sustiprinant – bandymų ir klaidų procesą, kai agentas yra apdovanojamas už veiksmus, kurie priartina tikslą prie tikslo.
Daugeliu atvejų žmogaus ekspertas turi kruopščiai sukurti atlygio funkciją, kuri yra skatinimo mechanizmas, suteikiantis agentui motyvacijos tyrinėti. Žmogaus ekspertas turi nuolat atnaujinti šią atlygio funkciją, kai agentas tyrinėja ir bando įvairius veiksmus. Tai gali atimti daug laiko, neefektyvu ir sunkiai išplėsti, ypač kai užduotis yra sudėtinga ir apima daug žingsnių.
Mokslininkai iš MIT, Harvardo universiteto ir Vašingtono universiteto sukūrė naują sustiprinimo mokymosi metodą, kuris nesiremia profesionaliai sukurta atlygio funkcija. Vietoj to, jis pasitelkia iš daugelio neekspertų vartotojų surinktus atsiliepimus, kad padėtų agentui, kai jis mokosi pasiekti savo tikslą.
Nors kai kurie kiti metodai taip pat bando panaudoti ne ekspertų atsiliepimus, šis naujas metodas leidžia dirbtinio intelekto agentui greičiau mokytis, nepaisant to, kad iš vartotojų gaunami duomenys dažnai yra kupini klaidų. Dėl šių triukšmingų duomenų kiti metodai gali sugesti.
Be to, šis naujas metodas leidžia asinchroniškai rinkti grįžtamąjį ryšį, todėl nepatyrę vartotojai visame pasaulyje gali prisidėti prie agento mokymo.
„Viena iš daugiausiai laiko užimančių ir sudėtingiausių dalių kuriant robotizuotą agentą šiandien yra atlygio funkcijos sukūrimas. Šiandien atlygio funkcijas kuria patyrę tyrinėtojai – paradigma, kurios mastelio negalima keisti, jei norime išmokyti savo robotus daugybės skirtingų užduočių. Mūsų darbe siūlomas būdas išplėsti robotų mokymąsi pasitelkiant atlygio funkcijos dizainą ir suteikiant galimybę neekspertams teikti naudingų atsiliepimų“, – sako Pulkit Agrawal, MIT Elektros inžinerijos ir kompiuterių mokslų katedros (EECS) docentė. vadovauja Neįtikėtino AI laboratorijai MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijoje (CSAIL).
Ateityje šis metodas galėtų padėti robotui greitai išmokti atlikti konkrečias užduotis vartotojo namuose, savininkui nereikalaujant robotui rodyti fizinių kiekvienos užduoties pavyzdžių. Robotas galėtų tyrinėti pats, o jo tyrinėjimui vadovautų ne ekspertų atsiliepimai.
„Taikant mūsų metodą, atlygio funkcija nukreipia agentą į tai, ką jis turėtų ištirti, o ne tiksliai nurodo, ką jis turi padaryti, kad užbaigtų užduotį. Taigi, net jei žmogaus priežiūra yra šiek tiek netiksli ir triukšminga, agentas vis tiek gali tyrinėti, o tai padeda mokytis daug geriau“, – aiškina pagrindinis autorius Marcelis Torne’as ’23, Improbable AI Lab tyrimų asistentas.
Prie Torne popieriuje prisijungė jo MIT patarėjas Agrawal; vyresnysis autorius Abhishek Gupta, Vašingtono universiteto docentas; taip pat kiti Vašingtono universitete ir MIT. Tyrimas bus pristatytas kitą mėnesį neuroninių informacijos apdorojimo sistemų konferencijoje.
Triukšmingas atsiliepimas
Vienas iš būdų surinkti vartotojų atsiliepimus, kad būtų galima mokytis, yra parodyti vartotojui dvi agento pasiektų būsenų nuotraukas ir paklausti to vartotojo, kuri būsena yra arčiau tikslo. Pavyzdžiui, galbūt roboto tikslas yra atidaryti virtuvės spintelę. Vienas vaizdas gali parodyti, kad robotas atidarė spintelę, o antrasis gali parodyti, kad atidarė mikrobangų krosnelę. Vartotojas pasirinks „geresnės“ būsenos nuotrauką.
Kai kurie ankstesni metodai bando naudoti šį sutelktinio šaltinio dvejetainį grįžtamąjį ryšį, kad optimizuotų atlygio funkciją, kurią agentas naudotų išmokdamas užduotį. Tačiau kadangi neekspertai gali klysti, atlygio funkcija gali tapti labai triukšminga, todėl agentas gali įstrigti ir niekada nepasiekti savo tikslo.
„Iš esmės agentas per daug rimtai žiūrėtų į atlygio funkciją. Jis bandytų puikiai atitikti atlygio funkciją. Taigi, užuot tiesiogiai optimizavę atlygio funkciją, mes tiesiog naudojame ją, kad nurodytume robotui, kurias sritis jis turėtų tyrinėti“, – sako Torne.
Jis ir jo bendradarbiai atskyrė procesą į dvi atskiras dalis, kurių kiekviena buvo nukreipta pagal savo algoritmą. Savo naują sustiprinimo mokymosi metodą jie vadina didžiuliu (Human Guided Exploration).
Viena vertus, tikslo parinkimo algoritmas nuolat atnaujinamas naudojant žmonių atsiliepimus. Grįžtamasis ryšys nenaudojamas kaip atlygio funkcija, o veikiau kaip agento tyrinėjimo vadovas. Tam tikra prasme nepatyrę vartotojai numeta stulpelius, kurie palaipsniui veda agentą į tikslą.
Kita vertus, agentas tyrinėja pats, save prižiūrimas, vadovaujamas tikslo rinkėjo. Jis renka bandomų veiksmų vaizdus arba vaizdo įrašus, kurie vėliau siunčiami žmonėms ir naudojami tikslo parinkikliui atnaujinti.
Tai susiaurina agento tyrinėjamą sritį ir nukreipia jį į perspektyvesnes sritis, kurios yra arčiau tikslo. Bet jei grįžtamojo ryšio nėra arba jei grįžtamasis ryšys užtruks šiek tiek laiko, agentas toliau mokysis pats, nors ir lėčiau. Tai leidžia retai ir asinchroniškai rinkti grįžtamąjį ryšį.
„Tyrimo ciklas gali tęstis savarankiškai, nes jis tik tyrinėja ir mokosi naujų dalykų. Ir tada, kai gausite geresnį signalą, jis bus tiriamas konkretesniais būdais. Galite tiesiog priversti juos suktis savo tempu“, – priduria Torne.
Ir kadangi atsiliepimai tik švelniai nukreipia agento elgesį, galiausiai jis išmoks atlikti užduotį, net jei vartotojai pateiks neteisingus atsakymus.
Greitesnis mokymasis
Tyrėjai išbandė šį metodą atlikdami daugybę imituotų ir realaus pasaulio užduočių. Modeliuodami jie naudojo HUGE, kad efektyviai išmoktų užduotis su ilgomis veiksmų sekomis, pvz., sukrauti blokus tam tikra tvarka arba naršyti dideliame labirinte.
Realaus pasaulio bandymuose jie naudojo „HuGE“, kad išmokytų robotų rankas nupiešti raidę „U“ ir pasirinkti bei padėti objektus. Šiems bandymams jie surinko duomenis iš 109 neekspertų vartotojų 13 skirtingų šalių, apimančių tris žemynus.
Realiuose ir imituotuose eksperimentuose HuGE padėjo agentams išmokti pasiekti tikslą greičiau nei kiti metodai.
Tyrėjai taip pat nustatė, kad iš ne ekspertų surinkti duomenys buvo geresni nei sintetiniai duomenys, kuriuos sukūrė ir pažymėjo mokslininkai. Nepatyrusiems naudotojams 30 vaizdų ar vaizdo įrašų žymėjimas užtruko mažiau nei dvi minutes.
„Tai labai žada, kad būtų galima išplėsti šį metodą“, – priduria Torne.
Susijusiame dokumente, kurį mokslininkai pristatė neseniai vykusioje robotų mokymosi konferencijoje, jie patobulino HUGE, kad dirbtinio intelekto agentas galėtų išmokti atlikti užduotį, o tada savarankiškai iš naujo nustatyti aplinką, kad galėtų tęsti mokymąsi. Pavyzdžiui, jei agentas išmoksta atidaryti spintelę, šis metodas taip pat nurodo agentui uždaryti spintelę.
„Dabar galime leisti, kad jis išmoktų visiškai savarankiškai, nereikalaujant žmogaus nustatymų iš naujo“, – sako jis.
Tyrėjai taip pat pabrėžia, kad taikant šį ir kitus mokymosi metodus labai svarbu užtikrinti, kad dirbtinio intelekto agentai būtų suderinti su žmogaus vertybėmis.
Ateityje jie nori toliau tobulinti HuGE, kad agentas galėtų mokytis iš kitų bendravimo formų, tokių kaip natūrali kalba ir fizinė sąveika su robotu. Jie taip pat domisi šio metodo taikymu mokant kelis agentus vienu metu.
Šį tyrimą iš dalies finansuoja MIT-IBM Watson AI Lab.