Jūsų visiškai naujas buitinis robotas pristatomas į namus, o jūs paprašote, kad jis pagamintų jums puodelį kavos. Nors ji žino kai kuriuos pagrindinius įgūdžius iš ankstesnės praktikos imituojamose virtuvėse, yra per daug veiksmų, kurių gali imtis – atsukti čiaupą, nuleisti vandenį tualete, ištuštinti miltų talpą ir pan. Tačiau yra keletas veiksmų, kurie gali būti naudingi. Kaip robotas gali išsiaiškinti, kokie žingsniai yra protingi naujoje situacijoje?
Ji galėtų naudoti PIGINet – naują sistemą, kuria siekiama efektyviai pagerinti buitinių robotų problemų sprendimo galimybes. Tyrėjai iš MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) naudoja mašininį mokymąsi, kad sumažintų tipinį kartotinį užduočių planavimo procesą, kuriame atsižvelgiama į visus galimus veiksmus. PIGINet pašalina užduočių planus, kurie negali patenkinti reikalavimų be susidūrimų, ir sutrumpina planavimo laiką 50–80 procentų, kai mokomasi spręsti tik 300–500 problemų.
Paprastai robotai bando sudaryti įvairius užduočių planus ir pakartotinai tobulina savo judesius, kol randa įmanomą sprendimą, kuris gali būti neefektyvus ir atimti daug laiko, ypač kai yra kilnojamų ir šarnyrinių kliūčių. Galbūt po virimo, pavyzdžiui, norisi visus padažus sudėti į spintelę. Ši problema gali užtrukti nuo dviejų iki aštuonių žingsnių, priklausomai nuo to, kaip pasaulis atrodo tuo metu. Ar robotui reikia atidaryti kelias spintos duris, ar spintoje yra kokių nors kliūčių, kurias reikia perkelti, kad būtų vietos? Jūs nenorite, kad jūsų robotas būtų erzinančiai lėtas – ir bus dar blogiau, jei jis galvodamas sudegins vakarienę.
Paprastai manoma, kad buitiniai robotai laikosi iš anksto nustatytų užduočių atlikimo receptų, o tai ne visada tinka įvairioms ar besikeičiančioms aplinkoms. Taigi, kaip PIGINet išvengia tų iš anksto nustatytų taisyklių? PIGINet yra neuroninis tinklas, kuris ima planus, vaizdus, tikslą ir pradinius faktus, tada numato tikimybę, kad užduoties planas gali būti patobulintas, kad būtų galima rasti įmanomus judėjimo planus. Paprastais žodžiais tariant, jame naudojamas transformatoriaus kodavimo įrenginys – universalus ir moderniausias modelis, skirtas veikti duomenų sekomis. Įvesties seka šiuo atveju yra informacija apie tai, kokį užduoties planą ji svarsto, aplinkos vaizdai ir simbolinės pradinės būsenos bei norimo tikslo kodavimas. Kodavimo priemonė sujungia užduočių planus, vaizdą ir tekstą, kad sukurtų prognozę, susijusią su pasirinkto užduočių plano įgyvendinamumu.
Laikydami daiktus virtuvėje, komanda sukūrė šimtus imituojamų aplinkų, kurių kiekviena turėjo skirtingą išdėstymą ir specifines užduotis, kurioms reikia daiktus pertvarkyti tarp prekystalių, šaldytuvų, spintelių, kriauklių ir puodų. Įvertinę laiką, reikalingą problemoms išspręsti, jie palygino PIGINet su ankstesniais metodais. Vienas teisingas užduočių planas gali apimti kairiųjų šaldytuvo durelių atidarymą, puodo dangčio nuėmimą, kopūsto perkėlimą iš puodo į šaldytuvą, bulvės perkėlimą į šaldytuvą, butelio paėmimą iš kriauklės, butelio įdėjimą į kriauklę, pomidorą arba dėti pomidorą. PIGINet žymiai sumažino planavimo laiką 80 procentų paprastesniuose scenarijuose ir 20–50 procentų sudėtingesniuose scenarijuose, kuriuose yra ilgesnės plano sekos ir mažiau mokymo duomenų.
Tokios sistemos kaip PIGINet, kurios naudoja duomenimis pagrįstų metodų galią, kad galėtų efektyviai tvarkyti pažįstamus atvejus, tačiau vis tiek gali pasinaudoti „pirmojo principo“ planavimo metodais, kad patikrintų mokymusi pagrįstus pasiūlymus ir išspręstų naujas problemas, siūlo geriausias iš abiejų. pasaulius, teikiančius patikimus ir veiksmingus bendrosios paskirties sprendimus įvairiausioms problemoms“, – sako MIT profesorius ir CSAIL vyriausiasis tyrėjas Leslie Pack Kaelbling.
PIGINet įvesties sekoje panaudojo multimodalinius įterpimus leido geriau pavaizduoti ir suprasti sudėtingus geometrinius ryšius. Vaizdo duomenų naudojimas padėjo modeliui suvokti erdvinius išdėstymus ir objektų konfigūracijas, nežinant objekto 3D tinklelio, kad būtų galima tiksliai patikrinti susidūrimą, leidžiantį greitai priimti sprendimus įvairiose aplinkose.
Vienas iš pagrindinių iššūkių, su kuriais susidūrė kuriant PIGINet, buvo gerų mokymo duomenų trūkumas, nes visus įmanomus ir neįgyvendinamus planus turi sukurti tradiciniai planuotojai, o tai visų pirma yra lėta. Tačiau, naudodama iš anksto paruoštus regėjimo kalbos modelius ir duomenų papildymo gudrybes, komanda sugebėjo išspręsti šį iššūkį, parodydama įspūdingą plano laiko sutrumpinimą ne tik esant problemoms, susijusioms su matytais objektais, bet ir nuliniu apibendrinimu iki anksčiau nematytų objektų.
„Kadangi kiekvieno namai yra skirtingi, robotai turėtų būti prisitaikantys problemų sprendėjai, o ne tik receptų sekėjai. Mūsų pagrindinė idėja yra leisti bendros paskirties užduočių planuotojui generuoti kandidatų užduočių planus ir naudoti gilaus mokymosi modelį, kad pasirinktų perspektyvius. Rezultatas – efektyvesnis, pritaikomas ir praktiškesnis buitinis robotas, galintis vikriai naršyti net sudėtingoje ir dinamiškoje aplinkoje. Be to, praktinis PIGINet pritaikymas neapsiriboja namų ūkiais“, – sako Zhutian Yang, MIT CSAIL doktorantas ir pagrindinis šio darbo autorius. „Mūsų ateities tikslas yra toliau tobulinti PIGINet, kad, nustačius neįmanomus veiksmus, būtų galima pasiūlyti alternatyvius užduočių planus, kurie dar labiau paspartins įmanomų užduočių planų generavimą, nereikalaujant didelių duomenų rinkinių, skirtų bendrosios paskirties planuotojui išmokyti nuo nulio. Manome, kad tai gali pakeisti būdą, kaip robotai lavinami jų kūrimo metu ir vėliau taikomi kiekvieno namuose.
„Šiame dokumente nagrinėjamas pagrindinis iššūkis diegiant bendrosios paskirties robotą: kaip mokytis iš ankstesnės patirties, kad būtų paspartintas sprendimų priėmimo procesas nestruktūrizuotose aplinkose, užpildytose daugybe artikuliuotų ir judančių kliūčių“, – sako Beomjoon Kim PhD ’20. , Korėjos pažangiojo mokslo ir technologijų instituto (KAIST) AI magistrantūros mokyklos docentas. „Pagrindinė tokių problemų kliūtis yra tai, kaip nustatyti aukšto lygio užduočių planą, kad būtų žemo lygio judėjimo planas, įgyvendinantis aukšto lygio planą. Paprastai jūs turite svyruoti tarp judesio ir užduočių planavimo, o tai sukelia didelį skaičiavimo neefektyvumą. Zhutiano darbas tai sprendžia, naudodamas mokymąsi, kad pašalintų neįgyvendinamus užduočių planus, ir tai yra žingsnis daug žadančia linkme.
Yang parašė darbą su NVIDIA mokslininku Caelan Garrett SB ’15, MEng ’15, PhD ’21; MIT Elektros inžinerijos ir kompiuterių mokslų katedros profesoriai ir CSAIL nariai Tomás Lozano-Pérez ir Leslie Kaelbling; ir NVIDIA bei Vašingtono universiteto vyresnysis robotikos tyrimų direktorius profesorius Dieteris Foxas. Komanda buvo remiama AI Singapūro ir Nacionalinio mokslo fondo, Oro pajėgų mokslinių tyrimų biuro ir Armijos tyrimų biuro dotacijų. Šis projektas buvo iš dalies vykdomas, kai Yang buvo NVIDIA tyrimų praktikantas. Jų tyrimai bus pristatyti liepos mėnesį konferencijoje Robotika: mokslas ir sistemos.