Filme „Top Gun: Maverick,“ Maverickas, kurį vaidina Tomas Cruise’as, yra įpareigotas mokyti jaunus pilotus, kad jie įvykdytų iš pažiūros neįmanomą misiją – nuskraidinti savo lėktuvus giliai į uolėtą kanjoną, likti taip žemai nuo žemės, kad jų neaptiktų radaras, tada greitai išlipti iš kanjono. kraštutiniu kampu, vengiant uolų sienų. Įspėjimas apie spoilerį: padedami Maverick, šie žmonės pilotai atlieka savo misiją.
Kita vertus, mašinai būtų sunku atlikti tą pačią pulsą skatinančią užduotį. Pavyzdžiui, autonominiam orlaiviui tiesiausias kelias link taikinio prieštarauja tam, ką mašina turi daryti, kad nesusidurtų su kanjono sienomis arba liktų nepastebėta. Daugelis esamų AI metodų negali įveikti šio konflikto, žinomo kaip stabilizavimo ir vengimo problema, ir negalėtų saugiai pasiekti savo tikslo.
MIT mokslininkai sukūrė naują techniką, kuri gali geriau nei kiti metodai išspręsti sudėtingas stabilizavimo ir išvengimo problemas. Jų mašininio mokymosi metodas atitinka arba viršija esamų metodų saugumą, tuo pačiu užtikrindamas dešimt kartų didesnį stabilumą, o tai reiškia, kad agentas pasiekia ir išlieka stabilus savo tikslo srityje.
Eksperimente, dėl kurio Maverickas didžiuotųsi, jų technika efektyviai pilotavo imituojamą reaktyvinį lėktuvą siauru koridoriumi, nesidaužant į žemę.
„Tai buvo ilgalaikė, sudėtinga problema. Daugelis žmonių žiūrėjo į tai, bet nežinojo, kaip elgtis su tokia didelės apimties ir sudėtinga dinamika“, – sako Chuchu Fan, Wilsono aeronautikos ir astronautikos docentas, Informacijos ir sprendimų sistemų laboratorijos (LIDS) narys. ) ir vyresnysis naujo straipsnio apie šią techniką autorius.
Prie Fan prisijungia pagrindinis autorius Oswinas So, magistrantas. Pranešimas bus pristatytas konferencijoje Robotika: mokslas ir sistemos.
Iššūkis stabilizuokite – venkite
Daugelis metodų sprendžia sudėtingas stabilizavimo ir vengimo problemas supaprastinant sistemą, kad būtų galima ją išspręsti naudojant nesudėtingą matematiką, tačiau supaprastinti rezultatai dažnai neatitinka realios dinamikos.
Veiksmingesniems metodams naudojamas sustiprinimo mokymasis, mašininio mokymosi metodas, kai agentas mokosi bandymų ir klaidų būdu, už elgesį, kuris priartina tikslą prie tikslo, gauna atlygį. Tačiau čia iš tikrųjų yra du tikslai – išlikti stabiliam ir išvengti kliūčių – ir rasti tinkamą pusiausvyrą yra nuobodu.
MIT mokslininkai problemą suskirstė į du etapus. Pirma, jie perfrazuoja stabilizavimo ir vengimo problemą kaip suvaržytą optimizavimo problemą. Šioje sąrankoje optimizavimo sprendimas leidžia agentui pasiekti ir stabilizuoti savo tikslą, tai reiškia, kad jis lieka tam tikrame regione. Taikydami apribojimus jie užtikrina, kad agentas išvengtų kliūčių, aiškina So.
Tada antrajame žingsnyje jie performuluoja tą suvaržytą optimizavimo problemą į matematinį vaizdą, žinomą kaip epigrafo forma, ir išsprendžia ją naudodami gilaus sustiprinimo mokymosi algoritmą. Epigrafo forma leidžia jiems apeiti sunkumus, su kuriais susiduria kiti metodai, naudojant sustiprintą mokymąsi.
„Tačiau gilus sustiprinimo mokymasis nėra skirtas optimizavimo problemos epigrafo formai išspręsti, todėl negalėjome tiesiog įtraukti jo į savo problemą. Turėjome išvesti matematines išraiškas, kurios tinka mūsų sistemai. Kai jau turėjome tuos naujus išvedžiojimus, sujungėme juos su esamais inžineriniais triukais, naudojamais kitais metodais“, – sako So.
Už antrąją vietą taškų nėra
Norėdami išbandyti savo požiūrį, jie sukūrė daugybę kontrolinių eksperimentų su skirtingomis pradinėmis sąlygomis. Pavyzdžiui, kai kuriuose modeliavimuose autonominis agentas turi pasiekti tikslo sritį ir likti joje, tuo pačiu atlikdamas drastiškus manevrus, kad išvengtų kliūčių, kurios susiduria su juo.
Šiame vaizdo įraše parodyta, kaip mokslininkai panaudojo savo techniką, kad galėtų efektyviai skristi imituojamu reaktyviniu orlaiviu pagal scenarijų, kai jis turėjo stabilizuotis iki tikslo netoli žemės, išlaikant labai mažą aukštį ir siaurame skrydžio koridoriuje. Tyrėjų sutikimu
Palyginti su keliomis bazinėmis linijomis, jų požiūris buvo vienintelis, kuris galėjo stabilizuoti visas trajektorijas išlaikant saugumą. Norėdami dar labiau išplėsti savo metodą, jie jį panaudojo skraidydami imituotu reaktyviniu lėktuvu pagal scenarijų, kurį būtų galima pamatyti „Top Gun“ filmas. Reaktyvinis lėktuvas turėjo stabilizuotis ties taikiniu netoli žemės, išlaikant labai mažą aukštį ir siaurame skrydžio koridoriuje.
Šis imituojamas reaktyvinis modelis buvo sukurtas atvirojo kodo 2018 m. ir buvo sukurtas skrydžių valdymo ekspertų kaip išbandymo iššūkis. Ar mokslininkai galėtų sukurti scenarijų, kad jų kontrolierius negalėtų skristi? Tačiau modelis buvo toks sudėtingas, kad buvo sunku su juo dirbti, ir jis vis tiek negalėjo susidoroti su sudėtingais scenarijais, sako Fanas.
MIT tyrėjų valdiklis sugebėjo užkirsti kelią reaktyviniam lėktuvui sudužti ar užstrigti, tuo pačiu stabilizuodamasis iki tikslo daug geriau nei bet kuri iš bazinių linijų.
Ateityje ši technika galėtų būti atspirties taškas kuriant valdiklius labai dinamiškiems robotams, kurie turi atitikti saugos ir stabilumo reikalavimus, pavyzdžiui, autonominiams pristatymo dronams. Arba ji gali būti įdiegta kaip didesnės sistemos dalis. Galbūt algoritmas įsijungia tik automobiliui slystant snieguotu keliu, kad padėtų vairuotojui saugiai grįžti į stabilią trajektoriją.
„So“ priduria, kad naršyti ekstremaliais scenarijais, kurių žmogus nesugebėtų susidoroti, jų požiūris tikrai šviečia.
„Manome, kad tikslas, kurio turėtume siekti kaip sritis, yra suteikti sustiprintam mokymuisi saugumo ir stabilumo garantijas, kurias turėsime užtikrinti, kai diegsime šiuos valdiklius svarbiose sistemose. Manome, kad tai yra daug žadantis pirmasis žingsnis siekiant šio tikslo“, – sako jis.
Žvelgiant į priekį, mokslininkai nori patobulinti savo techniką, kad būtų galima geriau atsižvelgti į neapibrėžtumą sprendžiant optimizavimą. Jie taip pat nori ištirti, kaip gerai veikia algoritmas, kai jis įdiegtas aparatinėje įrangoje, nes modelio ir realaus pasaulio dinamika neatitiks.
„Profesoriaus Fano komanda pagerino dinaminių sistemų, kuriose svarbi sauga, mokymosi efektyvumą. Užuot tiesiog pasiekę tikslą, jie sukuria valdiklius, kurie užtikrina, kad sistema galėtų saugiai pasiekti tikslą ir likti ten neribotą laiką“, – sako Stanley Bakas, Stony Brook universiteto Kompiuterių mokslų katedros docentas, nedalyvavęs šiame tyrime. . „Jų patobulinta formuluotė leidžia sėkmingai generuoti saugius valdiklius sudėtingiems scenarijams, įskaitant 17 būsenų netiesinį reaktyvinį orlaivio modelį, kurį iš dalies sukūrė tyrėjai iš Oro pajėgų tyrimų laboratorijos (AFRL), kuris apima netiesines diferencialines lygtis su kėlimo ir pasipriešinimo lentelėmis. “
Darbą iš dalies finansuoja MIT Linkolno laboratorija pagal Saugos akrobatinių skrydžių režimų programą.

