Įsivaizduokite, kad įsigyjate robotą namų ūkio darbams atlikti. Šis robotas buvo pastatytas ir apmokytas gamykloje atlikti tam tikras užduotis ir niekada nematė daiktų jūsų namuose. Kai paprašysite paimti puodelį nuo jūsų virtuvės stalo, jis gali neatpažinti jūsų puodelio (galbūt todėl, kad šis puodelis nudažytas neįprastu, tarkime, MIT talismano Timo Bebro atvaizdu). Taigi, robotas sugenda.
„Šiuo metu, kaip mokome šiuos robotus, kai jie sugenda, mes iš tikrųjų nežinome, kodėl. Taigi jūs tiesiog ištiestumėte rankas ir pasakytumėte: „Gerai, manau, turime pradėti iš naujo“. Svarbus komponentas, kurio trūksta šioje sistemoje, leidžia robotui parodyti, kodėl jis sugenda, kad vartotojas galėtų pateikti atsiliepimų“, – sako Andi Pengas, MIT elektrotechnikos ir kompiuterių mokslų (EECS) absolventas.
Peng ir jos bendradarbiai MIT, Niujorko universitete ir Kalifornijos universitete Berklyje sukūrė sistemą, kuri leidžia žmonėms greitai išmokyti robotą to, ko jie nori, įdėdami minimalias pastangas.
Kai robotas sugenda, sistema naudoja algoritmą, kad sukurtų priešingus paaiškinimus, apibūdinančius, ką reikia pakeisti, kad robotas pavyktų. Pavyzdžiui, galbūt robotas būtų galėjęs paimti puodelį, jei puodelis būtų tam tikros spalvos. Jame rodomi šie priešingi faktai žmogui ir prašoma pateikti atsiliepimą, kodėl robotas nepavyko. Tada sistema naudoja šį grįžtamąjį ryšį ir priešingus paaiškinimus, kad sukurtų naujus duomenis, kuriuos ji naudoja tiksliai suderindama robotą.
Tikslus derinimas apima mašininio mokymosi modelio, kuris jau buvo išmokytas atlikti vieną užduotį, koregavimą, kad jis galėtų atlikti antrą panašią užduotį.
Tyrėjai išbandė šią techniką modeliavimuose ir nustatė, kad ji gali išmokyti robotą efektyviau nei kiti metodai. Su šia sistema apmokyti robotai veikė geriau, o mokymo procesas sunaudojo mažiau žmogaus laiko.
Ši sistema galėtų padėti robotams greičiau mokytis naujose aplinkose, nereikalaujant, kad vartotojas turėtų techninių žinių. Ilgainiui tai galėtų būti žingsnis link bendros paskirties robotų, leidžiančių efektyviai atlikti kasdienes užduotis pagyvenusiems žmonėms ar asmenims su negalia įvairiose aplinkose.
Peng, pagrindinis autorius, prisijungia prie bendraautorių Aviv Netanyahu, EECS absolventas; Markas Ho, Stevenso technologijos instituto docentas; Tianmin Shu, MIT postdoc; Andreea Bobu, UC Berkeley absolventas; ir vyresnieji autoriai Julie Shah, MIT aeronautikos ir astronautikos profesorė ir Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) interaktyviosios robotikos grupės direktorė, ir Pulkit Agrawal, CSAIL profesorius. Tyrimas bus pristatytas tarptautinėje mašininio mokymosi konferencijoje.
Darbo apmokymuose
Robotai dažnai sugenda dėl pasiskirstymo poslinkio – robotui pateikiami objektai ir erdvės, kurių jis nematė treniruočių metu, ir jis nesupranta, ką daryti šioje naujoje aplinkoje.
Vienas iš būdų perkvalifikuoti robotą konkrečiai užduočiai – mokymasis imituojantis. Vartotojas gali parodyti teisingą užduotį, kad išmokytų robotą, ką daryti. Jei vartotojas bando išmokyti robotą paimti puodelį, bet demonstruoja su baltu puodeliu, robotas gali sužinoti, kad visi puodeliai yra balti. Tada gali nepavykti paimti raudono, mėlyno arba „Timo-bebro rudo“ puodelio.
Norint išmokyti robotą atpažinti, kad puodelis yra puodelis, nepaisant jo spalvos, gali prireikti tūkstančių demonstracijų.
„Aš nenoriu demonstruoti su 30 000 puodelių. Noriu pademonstruoti tik su vienu puodeliu. Bet tada man reikia išmokyti robotą, kad jis atpažintų, jog gali pasiimti bet kokios spalvos puodelį“, – sako Pengas.
Kad tai pasiektų, tyrėjų sistema nustato, koks konkretus objektas vartotojui rūpi (puodelis) ir kokie elementai nėra svarbūs atliekant užduotį (galbūt puodelio spalva neturi reikšmės). Ji naudoja šią informaciją naujiems, sintetiniams duomenims generuoti, pakeisdama šias „nesvarbias“ vaizdines sąvokas. Šis procesas žinomas kaip duomenų papildymas.
Struktūra turi tris etapus. Pirma, tai parodo užduotį, dėl kurios robotas sugedo. Tada jis surenka naudotojo norimų veiksmų demonstraciją ir generuoja priešingus faktus, ieškodamas visų erdvės funkcijų, kurios parodo, ką reikia pakeisti, kad robotas pavyktų.
Sistema parodo šiuos priešingus faktus vartotojui ir prašo atsiliepimų, kad nustatytų, kurios vaizdinės koncepcijos neturi įtakos norimam veiksmui. Tada jis naudoja šį žmogaus atsiliepimą, kad sukurtų daug naujų papildytų demonstracijų.
Tokiu būdu vartotojas galėtų pademonstruoti, kaip paima vieną puodelį, tačiau sistema sukurs demonstracijas, rodančias norimą veiksmą su tūkstančiais skirtingų puodelių, pakeisdama spalvą. Jis naudoja šiuos duomenis, kad tiksliai sureguliuotų robotą.
Peng sako, kad norint, kad technika būtų sėkminga, labai svarbu sukurti priešingus paaiškinimus ir prašyti vartotojo atsiliepimų.
Nuo žmogaus samprotavimo iki roboto samprotavimo
Kadangi jų darbas siekia įtraukti žmogų į mokymo kilpą, mokslininkai išbandė savo techniką su žmonėmis. Pirmiausia jie atliko tyrimą, kurio metu klausė žmonių, ar priešingi faktiniai paaiškinimai padėjo jiems nustatyti elementus, kuriuos galima pakeisti nepažeidžiant užduoties.
„Tai buvo taip aišku iš karto. Žmonėms taip gerai sekasi tokio tipo priešingos padėties samprotavimai. Ir šis priešingos padėties žingsnis yra tai, kas leidžia žmogaus samprotavimus paversti roboto samprotavimu tokiu būdu, kuris yra prasmingas“, – sako ji.
Tada jie pritaikė savo sistemą trims modeliavimui, kai robotams buvo pavesta: pereiti prie tikslo objekto, pasiimti raktą ir atrakinti duris, pasiimti norimą objektą, tada padėti jį ant stalviršio. Kiekvienu atveju jų metodas leido robotui mokytis greičiau nei naudojant kitus metodus, o naudotojams reikėjo mažiau demonstracijų.
Žvelgiant į priekį, mokslininkai tikisi išbandyti šią sistemą tikruose robotuose. Jie taip pat nori sumažinti laiką, per kurį sistema sukuria naujus duomenis naudojant generatyvius mašininio mokymosi modelius.
„Norime, kad robotai darytų tai, ką daro žmonės, ir norime, kad jie tai darytų semantiškai prasmingu būdu. Žmonės yra linkę veikti šioje abstrakčioje erdvėje, kur jie negalvoja apie kiekvieną vaizdo savybę. Galų gale, tai iš tikrųjų yra galimybė robotui išmokti gerą, į žmogų panašų vaizdą abstrakčiu lygiu“, – sako Pengas.
Šį tyrimą iš dalies remia Nacionalinio mokslo fondo absolventų mokslinių tyrimų stipendija, „Open Philanthropy“, „Apple AI/ML Fellowship“, „Hyundai Motor Corporation“, „MIT-IBM Watson AI Lab“ ir Nacionalinio mokslo fondo dirbtinio intelekto ir pagrindų institutas. Sąveikos.