Hiperrealistiniai virtualūs pasauliai buvo paskelbti geriausiomis autonominių transporto priemonių vairavimo mokyklomis, nes juose galima saugiai išbandyti pavojingus vairavimo scenarijus. Tesla, Waymo ir kitos savavaldžio vairavimo bendrovės labai pasikliauja duomenimis, kurie leidžia naudoti brangius ir patentuotus fotorealistinius simuliatorius, nes bandymus ir niuansų rinkimą I-maždaug avarijos duomenis paprastai nėra lengviausia ar nepageidautina atkurti.
Šiuo tikslu MIT Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) mokslininkai sukūrė „VISTA 2.0” – duomenimis paremtą modeliavimo variklį, kuriame transporto priemonės gali mokytis važiuoti realiame pasaulyje ir atsigauti po beveik avarijos scenarijų. Be to, visas kodas yra viešai prieinamas visuomenei.
„Šiandien tik įmonės turi tokią programinę įrangą, kokią turi „VISTA 2.0″ modeliavimo aplinka ir galimybės, ir ši programinė įranga yra patentuota. Išleidus šią versiją, mokslinių tyrimų bendruomenė galės naudotis nauja galinga priemone, skirta pagreitinti adaptyvaus patikimo valdymo, skirto autonominiam vairavimui, mokslinius tyrimus ir plėtrą”, – sako MIT profesorė ir CSAIL direktorė Daniela Rus, vyresnioji dokumento apie šį tyrimą autorė.
VISTA 2.0 sukurta remiantis ankstesniu komandos modeliu VISTA ir iš esmės skiriasi nuo esamų AV simuliatorių, nes yra paremta duomenimis, t. y. sukurta ir fotorealistiškai atvaizduota iš realaus pasaulio duomenų, todėl ją galima tiesiogiai perkelti į realybę. Nors pirminė iteracija palaikė tik vieno automobilio važiavimą eismo juosta naudojant vieną kameros jutiklį, norint pasiekti didelio tikslumo duomenimis pagrįstą modeliavimą, reikėjo iš naujo permąstyti pagrindus, kaip galima sintetinti skirtingus jutiklius ir elgsenos sąveikas.
Įveskite VISTA 2.0: duomenimis pagrįstą sistemą, kuri gali modeliuoti sudėtingų tipų jutiklius ir masiškai interaktyvius scenarijus bei sankryžas dideliu mastu. Turėdama daug mažiau duomenų nei ankstesni modeliai, komanda sugebėjo apmokyti autonomines transporto priemones, kurios gali būti gerokai patikimesnės nei tos, kurios buvo apmokytos naudojant didelius kiekius realių duomenų.
„Tai didžiulis duomenų pagrindu atliekamo autonominių transporto priemonių modeliavimo galimybių šuolis, taip pat masto padidėjimas ir gebėjimas dirbti su didesniu vairavimo sudėtingumu”, – sako Alexanderis Amini, CSAIL doktorantas ir vienas iš dviejų naujų darbų autorių kartu su kitu doktorantu Tsun-Hsuanu Wangu. „VISTA 2.0 demonstruoja gebėjimą modeliuoti ne tik 2D RGB kamerų jutiklių duomenis, bet ir itin didelės dimensijos 3D lidarus su milijonais taškų, nereguliaraus laiko įvykių kameras ir net interaktyvius bei dinamiškus scenarijus su kitomis transporto priemonėmis.”
Komanda galėjo padidinti interaktyvių vairavimo užduočių sudėtingumą, pavyzdžiui, aplenkimo, sekimo ir derybų, įskaitant daugiaagentinius scenarijus itin fotorealistiškoje aplinkoje.
Autonominių transporto priemonių dirbtinio intelekto modelių mokymas susijęs su sunkiai užtikrinama įvairių rūšių kraštinių atvejų ir keistų, pavojingų scenarijų pašava, nes dauguma mūsų duomenų (laimei) yra tiesiog įprastas, kasdienis vairavimas. Logiškai mąstant, negalime tiesiog atsitrenkti į kitus automobilius vien tam, kad išmokytume neuroninį tinklą, kaip neatsitrenkti į kitus automobilius.
Pastaruoju metu nuo klasikinių, žmogaus sukurtų modeliavimo aplinkų pereinama prie aplinkų, sukurtų iš realaus pasaulio duomenų. Pastarosios pasižymi didžiuliu fotorealizmu, tačiau pirmosios gali lengvai modeliuoti virtualias kameras ir lidarus. Pasikeitus šiai paradigmai, iškilo pagrindinis klausimas: Ar galima tiksliai susintetinti visų autonominėms transporto priemonėms reikalingų jutiklių, pavyzdžiui, lidarų ir įvykių pagrindu veikiančių kamerų, kurios yra retesnės, gausą ir sudėtingumą?
Lidar jutiklių duomenis daug sunkiau interpretuoti duomenimis pagrįstame pasaulyje – iš tikrųjų bandoma sukurti visiškai naujus 3D taškų debesis su milijonais taškų, tik iš retų pasaulio vaizdų. Norėdama sintetinti 3D lidarinių taškų debesis, komanda panaudojo automobilio surinktus duomenis, suprojektavo juos į 3D erdvę, gaunamą iš lidarinių duomenų, ir tada leido naujai virtualiai transporto priemonei važiuoti vietoje, kurioje buvo ta pradinė transporto priemonė. Galiausiai, naudodami neuroninius tinklus, jie visą šią jutiminę informaciją suprojektavo atgal į šios naujos virtualios transporto priemonės matymo erdvę.
Kartu su įvykių pagrindu veikiančių kamerų, kurios veikia didesniu nei tūkstančių įvykių per sekundę greičiu, imitatoriumi buvo galima ne tik imituoti šią daugiamodalinę informaciją, bet ir visa tai daryti realiuoju laiku – tai leido ne tik treniruoti neuroninius tinklus neprisijungus prie interneto, bet ir išbandyti internetu automobilyje papildytosios realybės nustatymuose, kad būtų galima atlikti saugius vertinimus. „Klausimas, ar tokio sudėtingumo ir fotorealizmo masto daugiajutiklinis modeliavimas yra įmanomas duomenimis pagrįsto modeliavimo srityje, buvo labai atviras”, – sako Amini.
Po to vairavimo mokykla tampa vakarėliu. Simuliacijoje galima judėti, turėti įvairių tipų valdiklius, imituoti įvairių tipų įvykius, kurti interaktyvius scenarijus ir tiesiog įterpti visiškai naujas transporto priemones, kurių net nebuvo pradiniuose duomenyse. Jie išbandė važiavimą eismo juosta, posūkį į kitą eismo juostą, automobilio sekimą ir sudėtingesnius scenarijus, pavyzdžiui, statinį ir dinaminį aplenkimą (kliūčių matymas ir judėjimas, kad nesusidurtumėte). Naudojant kelių agentų sistemą, sąveikauja ir tikri, ir imituoti agentai, o naujus agentus galima įleisti į sceną ir valdyti bet kokiu būdu.
Išvežusi savo pilnos komplektacijos automobilį į „laukinę gamtą”, t. y. Devensą, Masačusetso valstiją, komanda pastebėjo, kad rezultatus galima iš karto perkelti ir į kitą vietą – tiek nesėkmių, tiek sėkmių. Jiems taip pat pavyko pademonstruoti kūnišką, stebuklingą savaeigių automobilių modelių žodį: „tvirtas” Jie įrodė, kad visiškai VISTA 2.0 programa apmokyti AV automobiliai realiame pasaulyje buvo tokie patikimi, kad galėjo susidoroti su sunkiai įveikiama sudėtingų nesėkmių uodega.
Dabar viena iš apsauginių tvorų, kuria žmonės pasikliauja ir kurios kol kas neįmanoma sumodeliuoti, yra žmogaus emocijos. Tai draugiškas mostelėjimas ranka, palinkėjimas galva ar pritarimo mirktelėjimas, t. y. tokie niuansai, kuriuos komanda nori įgyvendinti būsimame darbe.
„Pagrindinis šio tyrimo algoritmas – kaip galime paimti duomenų rinkinį ir sukurti visiškai sintetinį pasaulį, skirtą mokymuisi ir autonomijai, – sako Amini. „Tai platforma, kuri, tikiu, vieną dieną gali būti išplėsta įvairiose robotikos srityse. Ne tik autonominio vairavimo, bet ir daugelyje sričių, kurios priklauso nuo regos ir sudėtingo elgesio. Džiaugiamės galėdami išleisti VISTA 2.0, kad padėtume bendruomenei surinkti savo duomenų rinkinius ir paversti juos virtualiais pasauliais, kuriuose jie galėtų tiesiogiai modeliuoti savo virtualias autonomines transporto priemones, važinėti šiomis virtualiomis vietovėmis, mokyti autonomines transporto priemones šiuose pasauliuose, o tada galėtų tiesiogiai perkelti juos į tikro dydžio, tikrus savarankiškai važiuojančius automobilius.”
Amini ir Wangas straipsnį parašė kartu su Zhijian Liu, MIT CSAIL doktorantu, Igoriu Giličenskiu, Toronto universiteto informatikos mokslų docentu, Wilko Schwartingu, dirbtinio intelekto tyrimų mokslininku ir MIT CSAIL doktorantu „20, Song Han, MIT Elektros inžinerijos ir informatikos katedros docentu, Sertacu Karamanu, MIT aeronautikos ir astronautikos docentu, ir Daniela Rus, MIT profesore ir CSAIL direktore. Tyrėjai pristatė šį darbą Filadelfijoje vykusioje IEEE tarptautinėje robotikos ir automatikos konferencijoje (ICRA).
Šį darbą rėmė Nacionalinis mokslo fondas ir „Toyota” tyrimų institutas. Komanda dėkoja NVIDIA už paramą, kurią suteikė „Drive AGX Pegasus”

