Įsivaizduokite picų kepėją, dirbantį su tešlos kamuoliu. Ji gali mentele pakelti tešlą ant pjaustymo lentos, tada kočėlu išlyginti ją į apskritimą. Lengva, tiesa? Ne, jei ši picų kepėja yra robotas.
Robotui dirbti su deformuojamu objektu, pavyzdžiui, tešla, yra sudėtinga, nes tešlos forma gali kisti įvairiais būdais, kuriuos sunku išreikšti lygtimi. Be to, norint iš tešlos sukurti naują formą, reikia atlikti kelis veiksmus ir naudoti skirtingus įrankius. Robotui ypač sunku išmokti manipuliacijos užduotį su ilga veiksmų seka, kai yra daug galimų pasirinkimų, nes mokymasis dažnai vyksta bandymų ir klaidų būdu.
MIT, Carnegie Mellon universiteto ir Kalifornijos universiteto San Diege mokslininkai pasiūlė geresnį būdą. Jie sukūrė robotizuotos manipuliavimo sistemos sistemą, kurioje naudojamas dviejų etapų mokymosi procesas, galintis leisti robotui ilgą laiką atlikti sudėtingas tešlos manipuliavimo užduotis. „Mokytojo” algoritmas išsprendžia kiekvieną žingsnį, kurį robotas turi atlikti, kad atliktų užduotį. Tada jis apmoko „mokinio” mašininio mokymosi modelį, kuris mokosi abstrakčių idėjų apie tai, kada ir kaip atlikti kiekvieną užduoties metu reikalingą įgūdį, pavyzdžiui, naudoti kočėlą. Turėdama šias žinias, sistema samprotauja, kaip atlikti įgūdžius, kad būtų atlikta visa užduotis.
Tyrėjai įrodė, kad šis metodas, kurį jie pavadino „DiffSkill”, gali atlikti sudėtingas manipuliacijos užduotis modeliavimo metu, pavyzdžiui, pjaustyti ir tepti tešlą arba surinkti tešlos gabalėlius iš aplink pjaustymo lentą, ir tuo pat metu lenkia kitus mašininio mokymosi metodus.
Be picų kepimo, šis metodas galėtų būti taikomas ne tik picų kepimo, bet ir kitais atvejais, kai robotui reikia manipuliuoti deformuojamais objektais, pavyzdžiui, slaugos robotui, kuris maitina, maudo ar aprengia pagyvenusius ar judėjimo negalią turinčius asmenis.
„Šis metodas yra artimesnis tam, kaip mes, žmonės, planuojame savo veiksmus. Kai žmogus atlieka ilgo plano užduotį, mes neužsirašome visų detalių. Turime aukštesnio lygio planuotoją, kuris apytiksliai nurodo, kokie yra etapai ir kai kuriuos tarpinius tikslus, kuriuos turime pasiekti pakeliui, o tada juos vykdome”, – sako Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) magistrantas Yunzhu Li, straipsnio, kuriame pristatomas DiffSkill, autorius.
Li bendraautoriai: pagrindinis autorius Xingyu Lin, Karnegio Mellono universiteto (CMU) magistrantas; Zhiao Huang, Kalifornijos universiteto San Diege magistrantas; Joshua B. Tenenbaum, Paul E. Niutono karjeros vystymo profesorius MIT Smegenų ir kognityvinių mokslų katedroje ir CSAIL narys; Davidas Heldas, CMU docentas; ir vyresnysis autorius Chuangas Ganas, MIT-IBM Watson AI laboratorijos mokslininkas. Tyrimas bus pristatytas tarptautinėje mokymosi reprezentacijų konferencijoje.
Mokinys ir mokytojas
DiffSkill sistemoje „mokytojas” yra trajektorijos optimizavimo algoritmas, galintis spręsti trumpo horizonto uždavinius, kai objekto pradinė būsena ir tikslinė vieta yra arti viena kitos. Trajektorijos optimizatorius veikia simuliatoriuje, kuris modeliuoja realaus pasaulio fiziką (vadinamajame diferencijuojamosios fizikos simuliatoriuje, todėl „Diff” reiškia „DiffSkill”). „Mokytojo” algoritmas naudoja simuliatoriaus informaciją, kad sužinotų, kaip tešla turi judėti kiekviename etape po vieną, ir tada išveda šias trajektorijas
Tada „mokinio” neuronų tinklas išmoksta imituoti mokytojo veiksmus. Kaip įvesties duomenis jis naudoja dviejų kamerų vaizdus: viename iš jų matomas dabartinės būklės tešlos vaizdas, o kitame – tešlos vaizdas užduoties pabaigoje. Neuronų tinklas sukuria aukšto lygio planą, pagal kurį nustato, kaip susieti skirtingus įgūdžius, kad būtų pasiektas tikslas. Tada jis sukuria konkrečias trumpo horizonto trajektorijas kiekvienam įgūdžiui ir siunčia komandas tiesiai į įrankius.
Mokslininkai šį metodą panaudojo eksperimentuodami su trimis skirtingomis imituojamomis tešlos manipuliavimo užduotimis. Vienoje užduotyje robotas mentele pakelia tešlą ant pjaustymo lentos, tada ją išlygina kočėlu. Kitoje užduotyje robotas naudoja griebtuvą, kad surinktų tešlą iš viso prekystalio, uždėtų ją ant mentelės ir perkeltų ant pjaustymo lentos. Trečioje užduotyje robotas peiliu perpjauna krūvą tešlos per pusę ir tada griebtuvu kiekvieną gabalėlį perkelia į skirtingas vietas.
Mokslininkai sukūrė robotinę manipuliavimo sistemą, kuri gali atlikti sudėtingas manipuliavimo tešla užduotis su modeliavimo įrankiais, pavyzdžiui, surinkti tešlą ir padėti ją ant pjaustymo lentos (kairėje), perpjauti tešlos gabalėlį per pusę ir atskirti puses (centre), pakelti tešlą ant pjaustymo lentos ir išlyginti ją kočėlu (dešinėje). Jų metodas sėkmingai atlieka šias užduotis, o kiti mašininio mokymosi metodai nepavyksta. A cut than the rest
DiffSkill sugebėjo pranokti populiarius metodus, kurie remiasi mokymusi iš pastiprinimo, kai robotas mokosi užduoties bandymų ir klaidų būdu. Tiesą sakant, „DiffSkill” buvo vienintelis metodas, kuris sugebėjo sėkmingai atlikti visas tris manipuliavimo tešla užduotis. Įdomu tai, kad mokslininkai nustatė, jog „mokinio” neuroninis tinklas netgi sugebėjo pranokti „mokytojo” algoritmą, sako Linas.
„Mūsų sistema suteikia robotams naują būdą įgyti naujų įgūdžių. Tuomet šiuos įgūdžius galima grandininiu būdu sujungti, kad būtų galima spręsti sudėtingesnes užduotis, kurių ankstesnės robotų sistemos nesugeba išspręsti”, – sako Linas.
Kadangi jų metodas sutelktas į įrankių (mentelių, peilių, smeigtukų ir kt.) valdymą, jį būtų galima taikyti įvairiems robotams, tačiau tik tuo atveju, jei jie naudotų konkrečius tyrėjų nustatytus įrankius. Ateityje jie planuoja įrankio formą įtraukti į „mokinio” tinklo samprotavimus, kad jį būtų galima taikyti ir kitiems įrenginiams.”
Mokslininkai ketina pagerinti DiffSkill veikimą, kaip įvesties duomenis naudodami 3D duomenis, o ne vaizdus, kuriuos gali būti sunku perkelti iš modeliavimo į realų pasaulį. Jie taip pat nori padaryti neuroninio tinklo planavimo procesą efektyvesnį ir surinkti įvairesnių mokymo duomenų, kad pagerintų DiffSkill gebėjimą apibendrinti naujose situacijose. Ilgainiui jie tikisi pritaikyti „DiffSkill” įvairesnėms užduotims, įskaitant manipuliavimą audiniais.
Šį darbą iš dalies remia Nacionalinis mokslo fondas, „LG Electronics”, MIT-IBM „Watson AI Lab”, Karinio jūrų laivyno tyrimų biuras ir Gynybos pažangiųjų mokslinių tyrimų projektų agentūros programa „Machine Common Sense”