Hiperrealistiški virtualūs pasauliai buvo paskelbti geriausiomis autonominių transporto priemonių (AV) vairavimo mokyklomis, nes jos pasirodė esąs vaisingos bandymų aikštelės saugiai išbandyti pavojingus vairavimo scenarijus. „Tesla“, „Waymo“ ir kitos savarankiškai vairuojančios įmonės labai pasikliauja duomenimis, kad būtų galima naudoti brangius ir patentuotus fotorealistinius simuliatorius, nes išbandyti ir rinkti niuansuotus beveik sudužusius duomenis paprastai nėra lengviausia ar geidžiamiausia atkurti.
Tuo tikslu mokslininkai iš MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) sukūrė „VISTA 2.0“ – duomenimis pagrįstą modeliavimo variklį, kuriuo transporto priemonės gali išmokti vairuoti realiame pasaulyje ir atsigauti nuo beveik avarijos scenarijai. Be to, visas kodas yra atviro kodo visuomenei.
„Šiandien tik įmonės turi programinę įrangą, tokią kaip modeliavimo aplinka ir VISTA 2.0 galimybės, ir ši programinė įranga yra patentuota. Su šiuo leidimu mokslinių tyrimų bendruomenė turės prieigą prie galingo naujo įrankio, skirto pagreitinti savarankiško vairavimo adaptyvios tvirtos kontrolės tyrimus ir plėtrą“, – sako MIT profesorė ir CSAIL direktorė Daniela Rus, vyresnioji straipsnio apie tyrimą autorė.
VISTA 2.0 sukurta remiantis ankstesniu komandos modeliu VISTA ir iš esmės skiriasi nuo esamų AV simuliatorių, nes yra pagrįsta duomenimis – tai reiškia, kad ji buvo sukurta ir fotorealistiškai atvaizduota iš realaus pasaulio duomenų, todėl galima tiesiogiai perkelti į realybę. Nors pradinė iteracija palaikė tik vienos automobilio juostos sekimą naudojant vieną kameros jutiklį, norint pasiekti didelio tikslumo duomenimis pagrįstą modeliavimą, reikėjo permąstyti pagrindus, kaip galima susintetinti skirtingus jutiklius ir elgesio sąveikas.
Įveskite VISTA 2.0: duomenimis pagrįstą sistemą, kuri gali modeliuoti sudėtingus jutiklių tipus ir labai interaktyvius scenarijus bei susikirtimus dideliu mastu. Turėdama daug mažiau duomenų nei ankstesni modeliai, komanda sugebėjo išmokyti autonomines transporto priemones, kurios galėtų būti daug tvirtesnės nei tos, kurios buvo apmokytos naudojant didelius realaus pasaulio duomenų kiekius.
„Tai didžiulis autonominių transporto priemonių duomenimis pagrįsto modeliavimo galimybių šuolis, taip pat padidintas mastas ir galimybė valdyti didesnį vairavimo sudėtingumą“, – sako Alexanderis Amini, CSAIL doktorantas ir studentas. bendraautorius dviejuose naujuose straipsniuose kartu su kolega doktorantu Tsun-Hsuan Wang. „VISTA 2.0 demonstruoja galimybę imituoti jutiklių duomenis toli už 2D RGB kamerų, bet taip pat itin didelių matmenų 3D lidarus su milijonais taškų, netaisyklingo laiko įvykiais pagrįstas kameras ir net interaktyvius bei dinamiškus scenarijus su kitomis transporto priemonėmis.
Komanda sugebėjo padidinti interaktyvių vairavimo užduočių sudėtingumą, pavyzdžiui, lenkti, sekti ir derėtis, įskaitant kelių agentų scenarijus labai fotorealistiškoje aplinkoje.
Savarankiškoms transporto priemonėms skirtų dirbtinio intelekto modelių mokymas apima sunkiai sutvirtinamus pašarus iš įvairių kraštinių atvejų ir keistų, pavojingų scenarijų, nes dauguma mūsų duomenų (laimei) yra tik paleisti. malūnas, kasdienis vairavimas. Logiškai mąstant, negalime tiesiog atsitrenkti į kitus automobilius vien tam, kad išmokytume neuroninį tinklą nesusitrenkti į kitus automobilius.
Pastaruoju metu buvo atsisakyta klasikinių, žmogaus sukurtų modeliavimo aplinkų. tiems, kurie sukurti iš realaus pasaulio duomenų. Pastarieji turi didžiulį fotorealizmą, tačiau pirmieji gali lengvai modeliuoti virtualius fotoaparatus ir lidarus. Po šio paradigmos pasikeitimo iškilo pagrindinis klausimas: ar galima tiksliai susintetinti visų autonominėms transporto priemonėms reikalingų jutiklių, tokių kaip lidar ir įvykiais pagrįstos kameros, turtingumą ir sudėtingumą?
„Lidar“ jutiklio duomenis daug sunkiau interpretuoti duomenimis pagrįstame pasaulyje – jūs efektyviai bandote sukurti visiškai naujus 3D taškų debesis su milijonais taškų tik iš retų pasaulio vaizdų. Siekdama susintetinti 3D lidaro taškinius debesis, komanda panaudojo automobilio surinktus duomenis, suprojektavo juos į 3D erdvę, gautą iš lidaro duomenų, ir leido naujai virtualiai transporto priemonei važiuoti vietoje, kur buvo ta pirminė transporto priemonė. Galiausiai, naudodamiesi neuroniniais tinklais, jie suprojektavo visą šią jutimo informaciją atgal į šios naujos virtualios transporto priemonės vaizdą.
Kartu su įvykiais pagrįstų kamerų, veikiančių didesniu nei tūkstančiai įvykių per sekundę greičiu, modeliavimas, treniruoklis galėjo ne tik imituoti šią multimodalinę informaciją, bet ir visa tai padaryti realiai. laikas – leidžia treniruoti neuroninius tinklus neprisijungus, bet taip pat išbandyti internetu automobilyje naudojant papildytos realybės nustatymus, kad būtų galima saugiai įvertinti. „Klausimas, ar kelių jutiklių modeliavimas tokiu sudėtingumo ir fotorealizmo mastu buvo įmanomas duomenimis pagrįsto modeliavimo srityje, buvo labai atviras klausimas“, – sako Amini.
Su tuo vairavimo mokykla tampa vakarėliu. Modeliuodami galite judėti, turėti skirtingų tipų valdiklius, imituoti įvairių tipų įvykius, kurti interaktyvius scenarijus ir tiesiog įmesti visiškai naujas transporto priemones, kurių net nebuvo pradiniuose duomenyse. Jie išbandė sekimą eismo juosta, posūkį, automobilio sekimą ir sudėtingesnius scenarijus, tokius kaip statinis ir dinaminis lenkimas (kliūčių matymas ir judėjimas, kad nesusidurtumėte). Naudojant kelias agentūras, sąveikauja ir tikri, ir imituoti agentai, o nauji agentai gali būti nuleisti į sceną ir valdyti bet kokiu būdu.
Išvežusi savo pilno masto automobilį į „laukinę gamtą“ – dar žinomą kaip Devensas, Masačusetsas – komanda pastebėjo, kad rezultatai buvo nedelsiant perkeliami – ir nesėkmių, ir sėkmių. Jie taip pat galėjo pademonstruoti bodišką, magišką savarankiškai vairuojančių automobilių modelių žodį: „tvirtas“. Jie parodė, kad AV, visiškai apmokyti VISTA 2.0, buvo tokie patvarūs realiame pasaulyje, kad galėjo susidoroti su sunkiais sunkumais.
Dabar vienas apsauginis turėklas, kuriuo remiasi žmonės, kurio dar negalima imituoti, yra žmogaus emocijos. Tai yra draugiškas pamojavimas, linktelėjimas ar mirksėjimas – tai niuansai, kuriuos komanda nori įgyvendinti būsimame darbe.
„Pagrindinis šio tyrimo algoritmas yra tai, kaip galime paimti duomenų rinkinį ir sukurti visiškai sintetinį mokymosi ir savarankiškumo pasaulį“, – sako Amini. „Tai platforma, kurią, manau, vieną dieną būtų galima išplėsti. daug skirtingų robotų ašių. Ne tik autonominis vairavimas, bet ir daugelis sričių, kurios priklauso nuo regėjimo ir sudėtingo elgesio. Džiaugiamės galėdami išleisti VISTA 2.0, kad padėtų bendruomenei rinkti savo duomenų rinkinius ir paversti juos virtualiais pasauliais, kur jie galėtų tiesiogiai imituoti savo virtualias autonomines transporto priemones, važinėti po šias virtualias vietoves, treniruoti autonomines transporto priemones šiuose pasauliuose ir tada gali tiesiogiai perkelti juos į pilno dydžio, tikrus savarankiškai važiuojančius automobilius.
Amini ir Wang parašė darbą kartu su Zhijian Liu, MIT CSAIL doktorantu; Igoris Gilitčenskis, Toronto universiteto kompiuterių mokslų docentas; Wilko Schwarting, dirbtinio intelekto tyrinėtojas ir MIT CSAIL mokslų daktaras 20; Song Han, MIT Elektros inžinerijos ir kompiuterių mokslo katedros docentas; Sertac Karaman, MIT aeronautikos ir astronautikos docentas; ir Daniela Rus, MIT profesorė ir CSAIL direktorė. Tyrėjai pristatė darbą IEEE tarptautinėje robotikos ir automatikos konferencijoje (ICRA) Filadelfijoje.
Šį darbą rėmė Nacionalinis mokslo fondas ir Toyota tyrimų institutas. Komanda pripažįsta NVIDIA paramą paaukodama Drive AGX Pegasus.

