Tikėtina, kad jūsų kasdienių darbų sąrašas yra gana paprastas: išplauti indus, nusipirkti bakalėjos ir kitas smulkmenas. Mažai tikėtina, kad parašėte „pasiimk pirmą nešvarų indą“ arba „išplaukite tą lėkštę kempine“, nes kiekvienas iš šių miniatiūrinių žingsnių darbe atrodo intuityvus. Nors mes galime įprastai atlikti kiekvieną žingsnį daug negalvodami, robotui reikalingas sudėtingas planas, apimantis išsamesnius kontūrus.
MIT Improbable AI Lab, kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) grupė, pasiūlė šioms mašinoms pagalbos ranką su nauja multimodaline sistema: Hierarchinio planavimo kompoziciniais pagrindais modeliais (HiP), kuri kartu su trijų skirtingų pamatų modelių patirtis. Kaip ir OpenAI GPT-4, pagrindinis modelis, ant kurio buvo sukurtas ChatGPT ir Bing Chat, šie pagrindiniai modeliai mokomi naudoti didžiulius duomenų kiekius tokioms programoms kaip vaizdų generavimas, teksto vertimas ir robotika.
Skirtingai nuo RT2 ir kitų multimodalinių modelių, kurie mokomi pagal suporuotus regėjimo, kalbos ir veiksmų duomenis, HiP naudoja tris skirtingus pagrindo modelius, kurių kiekvienas apmokytas pagal skirtingus duomenų modalumus. Kiekvienas pamatų modelis fiksuoja skirtingą sprendimų priėmimo proceso dalį ir tada, kai ateina laikas priimti sprendimus, veikia kartu. HiP nebereikia prieigos prie suporuotų regėjimo, kalbos ir veiksmų duomenų, kuriuos sunku gauti. HiP taip pat daro samprotavimo procesą skaidresnį.
Tai, kas laikoma kasdieniu žmogaus darbu, gali būti roboto „ilgo horizonto tikslas“ – visa apimantis tikslas, kurio metu pirmiausia reikia atlikti daug mažesnių žingsnių – norint suplanuoti, suprasti ir įgyvendinti tikslus, reikia pakankamai duomenų. Nors kompiuterinės vizijos tyrinėtojai bandė sukurti monolitinius šios problemos pagrindų modelius, kalbos, vaizdo ir veiksmo duomenų susiejimas yra brangus. Vietoj to, HiP yra kitoks, multimodalinis receptas: trijulė, kuri pigiai įjungia kalbinį, fizinį ir aplinkos intelektą į robotą.
„Pagrindų modeliai nebūtinai turi būti monolitiniai“, – sako NVIDIA AI tyrėjas Jimas Fanas, kuris nedalyvavo šiame dokumente. „Šis darbas suskaido sudėtingą įkūnyto agento planavimo užduotį į tris sudedamuosius modelius: kalbos mąstytoją, vizualinio pasaulio modelį ir veiksmų planuotoją. Dėl to sudėtinga sprendimų priėmimo problema tampa lengviau valdoma ir skaidresnė.
Komanda mano, kad jų sistema galėtų padėti šioms mašinoms atlikti namų ruošos darbus, pvz., padėti knygą arba įdėti dubenį į indaplovę. Be to, HiP galėtų padėti atlikti daugiapakopes statybos ir gamybos užduotis, pvz., sukrauti ir sudėti skirtingas medžiagas tam tikromis sekomis.
HiP vertinimas
CSAIL komanda išbandė HiP aštrumą atlikdama tris manipuliavimo užduotis, pralenkdama panašias sistemas. Sistema motyvavo kurdama protingus planus, kurie prisitaiko prie naujos informacijos.
Pirma, tyrėjai paprašė, kad jis sukrautų skirtingų spalvų blokus vienas ant kito, o paskui šalia padėtų kitus. Laimikis: kai kurių tinkamų spalvų nebuvo, todėl robotas turėjo sudėti baltus blokus į spalvotą dubenį, kad juos nudažytų. HiP dažnai tiksliai prisitaikydavo prie šių pokyčių, ypač lyginant su pažangiausiomis užduočių planavimo sistemomis, tokiomis kaip „Transformer BC“ ir „Action Diffuser“, koreguodamas savo planus, kad kiekvienas kvadratas būtų sukrautas ir išdėstytas pagal poreikį.
Kitas išbandymas: daiktų, tokių kaip saldainiai ir plaktukas, išdėstymas rudoje dėžutėje, ignoruojant kitus daiktus. Kai kurie objektai, kuriuos reikėjo perkelti, buvo nešvarūs, todėl HiP pakoregavo planus įdėti juos į valymo dėžutę, o paskui į rudą konteinerį. Trečioje demonstracijoje robotas sugebėjo nepaisyti nereikalingų objektų, kad įvykdytų virtuvės antrinius tikslus, pvz., atidaryti mikrobangų krosnelę, pašalinti virdulį ir įjungti šviesą. Kai kurie raginami veiksmai jau buvo atlikti, todėl robotas prisitaikė praleisdamas šias nuorodas.
Trijų krypčių hierarchija
Trijų krypčių HiP planavimo procesas veikia kaip hierarchija su galimybe iš anksto išmokyti kiekvieną jo komponentą naudoti skirtingus duomenų rinkinius, įskaitant informaciją už robotikos ribų. Šios užsakymo apačioje yra didelis kalbos modelis (LLM), kuris pradeda mąstyti užfiksuodamas visą reikalingą simbolinę informaciją ir sudarydamas abstrakčią užduoties planą. Taikydamas sveiko proto žinias, kurias randa internete, modelis suskaido savo tikslą į antrinius tikslus. Pavyzdžiui, „puodelio arbatos ruošimas“ virsta „puodo pripildymu vandens“, „puodo virimu“ ir tolesniais reikalingais veiksmais.
„Viskas, ką mes norime padaryti, tai paimti esamus iš anksto parengtus modelius ir sėkmingai sujungti vienas su kitu“, – sako Anurag Ajay, MIT Elektros inžinerijos ir informatikos katedros (EECS) ir CSAIL filialo doktorantas. „Užuot siekę, kad vienas modelis padarytų viską, sujungiame kelis modelius, kurie naudoja skirtingus interneto duomenų būdus. Kai naudojami kartu, jie padeda priimti robotus sprendimus ir gali padėti atlikti užduotis namuose, gamyklose ir statybvietėse.
Šiems modeliams taip pat reikia tam tikros formos „akies“, kad suprastų aplinką, kurioje jie veikia, ir tinkamai įgyvendintų kiekvieną papildomą tikslą. Komanda naudojo didelį vaizdo sklaidos modelį, kad papildytų pradinį planavimą, kurį užbaigė LLM, kuris renka geometrinę ir fizinę informaciją apie pasaulį iš filmuotos medžiagos internete. Savo ruožtu vaizdo modelis sukuria stebėjimo trajektorijos planą, patobulindamas LLM kontūrą, kad įtrauktų naujas fizines žinias.
Šis procesas, žinomas kaip kartotinis tobulinimas, leidžia HiP argumentuoti savo idėjas, kiekviename etape atsižvelgus į grįžtamąjį ryšį, kad būtų sukurta praktiškesnė koncepcija. Atsiliepimų srautas panašus į straipsnio rašymą, kai autorius gali nusiųsti savo juodraštį redaktoriui, o įtraukus šias pataisas, leidėjas peržiūri visus paskutinius pakeitimus ir užbaigia.
Šiuo atveju hierarchijos viršūnė yra egocentrinis veiksmo modelis arba pirmojo asmens vaizdų seka, nurodanti, kokie veiksmai turėtų būti atliekami remiantis aplinka. Šio etapo metu stebėjimo planas iš vaizdo modelio atvaizduojamas robotui matomoje erdvėje, padedant mašinai nuspręsti, kaip atlikti kiekvieną užduotį ilgo horizonto tikslu. Jei robotas arbatai ruošti naudoja HiP, tai reiškia, kad jis tiksliai nubrėžė, kur yra puodas, kriauklė ir kiti pagrindiniai vaizdiniai elementai, ir pradės siekti kiekvieno papildomo tikslo.
Visgi multimodalinį darbą riboja kokybiškų vaizdo pamatų modelių trūkumas. Kai tik jie bus prieinami, jie galėtų susieti su HiP nedidelio masto vaizdo modeliais, kad dar labiau pagerintų vaizdinės sekos numatymą ir roboto veiksmų generavimą. Aukštesnės kokybės versija taip pat sumažintų dabartinius vaizdo įrašų modelių duomenų reikalavimus.
Nepaisant to, CSAIL komandos metodas naudojo tik nedidelę duomenų dalį. Be to, HiP buvo pigu mokyti ir parodė, kad galima naudoti lengvai prieinamus pamatų modelius atliekant ilgalaikes užduotis. „Tai, ką Anurag pademonstravo, yra koncepcijos įrodymas, kaip galime paimti modelius, parengtus atlikti atskiras užduotis ir duomenų modalumus, ir sujungti juos į robotų planavimo modelius. Ateityje HiP galėtų būti papildytas iš anksto parengtais modeliais, galinčiais apdoroti lietimą ir garsą, kad būtų galima geriau planuoti“, – sako vyresnysis autorius Pulkit Agrawal, MIT EECS docentas ir Improbable AI Lab direktorius. Grupė taip pat svarsto galimybę HiP pritaikyti sprendžiant realaus pasaulio ilgalaikes robotikos užduotis.
Ajay ir Agrawal yra pagrindiniai darbo aprašo autoriai. Prie jų prisijungia MIT profesoriai ir CSAIL pagrindiniai tyrėjai Tommi Jaakkola, Joshua Tenenbaum ir Leslie Pack Kaelbling; CSAIL tyrimų filialas ir MIT-IBM AI Lab tyrimų vadovas Akash Srivastava; absolventai Seungwook Han ir Yilun Du ’19; buvęs postdoc Abhishek Gupta, kuris dabar yra Vašingtono universiteto docentas; ir buvęs absolventas Shuang Li PhD ’23.
Grupės darbą iš dalies palaikė Nacionalinis mokslo fondas, JAV gynybos pažangių tyrimų projektų agentūra, JAV armijos tyrimų biuras, JAV jūrų laivyno tyrimų daugiadalykių universitetų tyrimų iniciatyvų biuras ir MIT-IBM Watson AI laboratorija. Jų išvados buvo pristatytos 2023 m. Neurinių informacijos apdorojimo sistemų (NeurIPS) konferencijoje.

