MIT ir Stanfordo universiteto mokslininkai sukūrė naują mašininio mokymosi metodą, kuris galėtų būti naudojamas robotui, pavyzdžiui, dronui ar autonominei transporto priemonei valdyti, efektyviau ir efektyviau dinamiškoje aplinkoje, kur sąlygos gali greitai keistis.
Ši technika gali padėti autonominei transporto priemonei išmokti kompensuoti slidžias kelio sąlygas, kad išvengtų slydimo, leisti robotui laisvai skraidynui tempti įvairius objektus erdvėje arba leisti dronui atidžiai sekti kalnų slidininką, nepaisant stipraus vėjo. .
Tyrėjų požiūris apima tam tikrą valdymo teorijos struktūrą į modelio mokymosi procesą taip, kad būtų sukurtas efektyvus sudėtingos dinamikos, pvz., dėl vėjo poveikio skraidančios transporto priemonės trajektorijai, valdymo metodas. Vienas iš būdų galvoti apie šią struktūrą yra užuomina, kuri gali padėti valdyti sistemą.
„Mūsų darbo tikslas yra išmokti vidinę sistemos dinamikos struktūrą, kurią būtų galima panaudoti kuriant efektyvesnius stabilizuojančius valdiklius“, – sako Navidas Azizanas, Esther ir Harold E. Edgerton MIT Mechanikos inžinerijos katedros docentas. ir Duomenų, sistemų ir visuomenės instituto (IDSS) bei Informacijos ir sprendimų sistemų laboratorijos (LIDS) narys. „Kartu mokydamiesi iš duomenų sistemos dinamikos ir šių unikalių į valdymą orientuotų struktūrų, galime natūraliai sukurti valdiklius, kurie realiame pasaulyje veikia daug efektyviau.
Naudojant šią struktūrą išmoktame modelyje, tyrėjų technika iš modelio iš karto išskiria veiksmingą valdiklį, priešingai nei kiti mašininio mokymosi metodai, kuriuos naudojant reikia gauti valdiklį arba išmokti jį atskirai, atliekant papildomus veiksmus. Naudojant šią struktūrą, jų metodas taip pat gali išmokti efektyvų valdiklį naudojant mažiau duomenų nei kiti metodai. Tai galėtų padėti jų mokymusi pagrįstai valdymo sistemai greičiau pasiekti geresnių rezultatų greitai kintančioje aplinkoje.
„Šiuo darbu bandoma rasti pusiausvyrą tarp jūsų sistemos struktūros nustatymo ir tiesiog modelio mokymosi iš duomenų“, – sako pagrindinis autorius Spenceris M. Richardsas, Stanfordo universiteto magistrantas. „Mūsų požiūris įkvėptas to, kaip robotai naudoja fiziką, kad sukurtų paprastesnius robotų modelius. Šių modelių fizinė analizė dažnai suteikia valdymo tikslais naudingą struktūrą – tokią, kurios galbūt nepastebėsite, jei tik mėgintumėte naiviai pritaikyti modelį prie duomenų. Vietoj to, mes stengiamės nustatyti panašiai naudingą struktūrą iš duomenų, nurodančių, kaip įgyvendinti jūsų valdymo logiką.
Papildomi šio straipsnio autoriai yra Jean-Jacques Slotine, MIT mechanikos inžinerijos ir smegenų bei pažinimo mokslų profesorius, ir Marco Pavone, Stanfordo aeronautikos ir astronautikos docentas. Tyrimas bus pristatytas Tarptautinėje mašininio mokymosi konferencijoje (ICML).
Mokytis valdyti valdiklį
Nustatyti geriausią būdą valdyti robotą, kad jis atliktų tam tikrą užduotį, gali būti sudėtinga problema, net jei mokslininkai žino, kaip modeliuoti viską apie sistemą.
Valdiklis yra logika, leidžianti dronui sekti, pavyzdžiui, norima trajektorija. Šis valdiklis nurodys dronui, kaip reguliuoti savo rotoriaus jėgas, kad būtų kompensuotas vėjų poveikis, galintis numušti jį nuo stabilaus kelio, kad pasiektų tikslą.
Šis dronas yra dinamiška sistema – fizinė sistema, kuri laikui bėgant vystosi. Šiuo atveju jo padėtis ir greitis keičiasi skrendant per aplinką. Jei tokia sistema pakankamai paprasta, inžinieriai valdiklį gali sukurti ranka.
Sistemos modeliavimas rankomis iš esmės užfiksuoja tam tikrą struktūrą, pagrįstą sistemos fizika. Pavyzdžiui, jei robotas būtų modeliuojamas rankiniu būdu naudojant diferencialines lygtis, jos užfiksuotų ryšį tarp greičio, pagreičio ir jėgos. Pagreitis – tai greičio kitimo greitis laikui bėgant, kurį lemia roboto masė ir jam taikomos jėgos.
Tačiau dažnai sistema yra per sudėtinga, kad ją būtų galima tiksliai modeliuoti rankomis. Aerodinaminius efektus, pavyzdžiui, tai, kaip besisukantis vėjas stumia skraidančią transporto priemonę, žinoma, sunku nustatyti rankiniu būdu, aiškina Richardsas. Vietoj to tyrėjai laikui bėgant matuotų drono padėtį, greitį ir rotoriaus greitį ir naudotų mašininį mokymąsi, kad šios dinaminės sistemos modelį pritaikytų prie duomenų. Tačiau šie metodai paprastai neišmoksta valdymu pagrįstos struktūros. Ši struktūra yra naudinga nustatant, kaip geriausiai nustatyti rotoriaus greitį, kad būtų galima nukreipti drono judėjimą laikui bėgant.
Kai jie sumodeliuoja dinaminę sistemą, daugelis esamų metodų taip pat naudoja duomenis, kad išmoktų atskirą sistemos valdiklį.
„Kiti metodai, kuriais bandoma išmokti dinamikos ir valdiklio iš duomenų kaip atskirų objektų, filosofiškai šiek tiek skiriasi nuo to, kaip mes paprastai tai darome paprastesnėms sistemoms. Mūsų požiūris labiau primena modelių išvedimą rankomis iš fizikos ir susiejimą su valdymu“, – sako Richardsas.
Struktūros identifikavimas
MIT ir Stanfordo komanda sukūrė techniką, kuri naudoja mašininį mokymąsi, kad išmoktų dinamikos modelį, tačiau tokiu būdu, kad modelis turėtų tam tikrą nustatytą struktūrą, kuri yra naudinga sistemai valdyti.
Naudodami šią struktūrą, jie gali išgauti valdiklį tiesiai iš dinamikos modelio, o ne naudoti duomenis, kad išmoktų visiškai atskirą valdiklio modelį.
„Mes nustatėme, kad be dinamikos mokymosi, taip pat svarbu išmokti į valdymą orientuotą struktūrą, kuri palaiko efektyvų valdiklio dizainą. Mūsų metodas mokytis nuo būsenos priklausomų dinamikos koeficientų faktorinacijų pranoko pradines duomenų efektyvumo ir stebėjimo galimybes ir pasirodė esąs sėkmingas efektyviai ir efektyviai valdydamas sistemos trajektoriją“, – sako Azizanas.
Kai jie išbandė šį metodą, jų valdiklis atidžiai sekė norimas trajektorijas, pralenkdamas visus pradinius metodus. Valdiklis, išgautas iš jų išmokto modelio, beveik atitiko pagrindinio tiesos valdiklio, kuris sukurtas naudojant tikslią sistemos dinamiką, našumą.
„Padarę paprastesnes prielaidas, gavome tai, kas iš tikrųjų veikė geriau nei kiti sudėtingi pradiniai metodai“, – priduria Richardsas.
Tyrėjai taip pat nustatė, kad jų metodas buvo efektyvus duomenų atžvilgiu, o tai reiškia, kad jis pasiekė aukštą našumą net ir turėdamas nedaug duomenų. Pavyzdžiui, naudojant tik 100 duomenų taškų, jis galėtų efektyviai modeliuoti labai dinamišką rotoriumi varomą transporto priemonę. Metodų, kuriuose buvo naudojami keli išmokti komponentai, našumas sumažėjo daug greičiau naudojant mažesnius duomenų rinkinius.
Dėl šio efektyvumo jų technika gali būti ypač naudinga situacijose, kai dronui ar robotui reikia greitai mokytis greitai besikeičiančiomis sąlygomis.
Be to, jų požiūris yra bendras ir gali būti taikomas daugelio tipų dinaminėms sistemoms – nuo robotų rankų iki laisvai skraidančių erdvėlaivių, veikiančių mažos gravitacijos aplinkoje.
Ateityje mokslininkai yra suinteresuoti kurti modelius, kurie būtų labiau fiziškai interpretuojami ir kurie galėtų nustatyti labai specifinę informaciją apie dinaminę sistemą, sako Richardsas. Tai gali lemti geresnius valdiklius.
„Nepaisant savo paplitimo ir svarbos, netiesinis grįžtamojo ryšio valdymas išlieka menas, todėl jis ypač tinka duomenimis pagrįstiems ir mokymu pagrįstiems metodams. Šis dokumentas labai prisideda prie šios srities, nes siūlo metodą, kuris kartu mokosi sistemos dinamikos, valdiklio ir į valdymą orientuotos struktūros“, – sako Nikolajus Matni, Pensilvanijos universiteto Elektros ir sistemų inžinerijos katedros docentas. kuris nebuvo susijęs su šiuo darbu. „Tai, kas man pasirodė ypač jaudinanti ir įtikinama, buvo šių komponentų integravimas į bendrą mokymosi algoritmą, kad į kontrolę orientuota struktūra veiktų kaip indukcinis poslinkis mokymosi procese. Rezultatas yra duomenų atžvilgiu efektyvus mokymosi procesas, kuris sukuria dinamiškus modelius, kuriems būdinga struktūra, leidžianti efektyviai, stabiliai ir patikimai valdyti. Nors techninis dokumento indėlis pats savaime yra puikus, būtent šį konceptualų indėlį laikau įdomiausiu ir reikšmingiausiu.
Šį tyrimą iš dalies remia NASA universiteto lyderystės iniciatyva ir Kanados gamtos mokslų ir inžinerijos tyrimų taryba.