Įsivaizduokite skambančius vargonų akordus, aidinčius per urvinę didžiulės akmeninės katedros šventovę.
Garsą, kurį girdės katedros lankytojas, įtakoja daugelis veiksnių, įskaitant vargonų vietą, klausytojo vietą, ar tarp jų stovi kolonos, suolai ar kitos kliūtys, iš ko pagamintos sienos, kur stovi klausytojas. langai ar durys ir tt Garso girdėjimas gali padėti kam nors įsivaizduoti savo aplinką.
MIT ir MIT-IBM Watson AI Lab mokslininkai tiria erdvinės akustinės informacijos naudojimą, kad mašinos taip pat geriau įsivaizduotų savo aplinką. Jie sukūrė mašininio mokymosi modelį, kuris gali užfiksuoti, kaip bet koks garsas kambaryje sklis per erdvę, todėl modelis gali imituoti tai, ką klausytojas išgirs skirtingose vietose.
Tiksliai modeliuodama scenos akustiką, sistema iš garso įrašų gali sužinoti pagrindinę kambario 3D geometriją. Tyrėjai gali naudoti akustinę informaciją, kurią jų sistema užfiksuoja, kad sukurtų tikslius vizualinius kambario atvaizdus, panašiai kaip žmonės naudoja garsą vertindami savo fizinės aplinkos savybes.
Be galimo pritaikymo virtualioje ir papildytoje realybėje, ši technika galėtų padėti dirbtinio intelekto agentams geriau suprasti juos supantį pasaulį. Pavyzdžiui, modeliuodamas garso akustines savybes savo aplinkoje, povandeninis tyrinėjimo robotas galėtų pajusti dalykus, esančius toliau, nei jis galėtų matyti vien tik regėdamas, sako Elektros inžinerijos ir informatikos katedros studentas Yilun Du. EECS) ir modelį aprašančio straipsnio bendraautoris.
„Dauguma mokslininkų iki šiol sutelkė dėmesį tik į vizijos modeliavimą. Tačiau, kaip žmonės, mes suvokiame daugiarūšį. Svarbu ne tik regėjimas, bet ir garsas. Manau, kad šis darbas atveria įdomią tyrimų kryptį, kaip geriau panaudoti garsą modeliuojant pasaulį“, – sako Du.
Prie Du prisijungia pagrindinis autorius Andrew Luo, Carnegie Mellon universiteto (CMU) absolventas; Michael J. Tarr, Kavčić-Moura CMU pažinimo ir smegenų mokslo profesorius; ir vyresnieji autoriai Joshua B. Tenenbaum, MIT Smegenų ir pažinimo mokslų katedros profesorius ir Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) narys; Antonio Torralba, Delta Electronics Elektros inžinerijos ir kompiuterių mokslo profesorius ir CSAIL narys; ir Chuang Gan, pagrindinis MIT-IBM Watson AI laboratorijos mokslinis darbuotojas. Tyrimas bus pristatytas Neuroninių informacijos apdorojimo sistemų konferencijoje.
Garsas ir vizija
Kompiuterinio regėjimo tyrimuose buvo naudojamas mašininio mokymosi modelis, vadinamas numanomu neuroninio vaizdavimo modeliu, siekiant sukurti sklandžią, nuolatinę 3D scenų rekonstrukciją iš vaizdų. Šiuose modeliuose naudojami neuroniniai tinklai, kuriuose yra tarpusavyje sujungtų mazgų arba neuronų sluoksniai, kurie apdoroja duomenis užduočiai atlikti.
MIT mokslininkai naudojo to paties tipo modelį, kad užfiksuotų, kaip garsas nuolat sklinda per sceną.
Tačiau jie nustatė, kad regėjimo modeliams naudinga savybė, žinoma kaip fotometrinis nuoseklumas, kuri netaikoma garsui. Jei į tą patį objektą žiūrima iš dviejų skirtingų vietų, objektas atrodo maždaug taip pat. Tačiau su garsu pakeiskite vietą ir girdimas garsas gali visiškai skirtis dėl kliūčių, atstumo ir pan. Dėl to garsą nuspėti labai sunku.
Tyrėjai įveikė šią problemą į savo modelį įtraukę dvi akustikos savybes: abipusį garso pobūdį ir vietinių geometrinių ypatybių įtaką.
Garsas yra abipusis, o tai reiškia, kad jei garso šaltinis ir klausytojas susikeičia, tai, ką žmogus girdi, nesikeičia. Be to, tam, ką girdite tam tikroje srityje, didelę įtaką daro vietos ypatybės, pvz., kliūtis tarp klausytojo ir garso šaltinio.
Norėdami įtraukti šiuos du veiksnius į savo modelį, vadinamą neuroniniu akustiniu lauku (NAF), jie papildo neuroninį tinklą tinkleliu, fiksuojančiu objektus ir architektūrines ypatybes scenoje, pavyzdžiui, duris ar sienas. Modelis atsitiktinai atrenka taškus tame tinkle, kad sužinotų apie funkcijas konkrečiose vietose.
„Jei įsivaizduojate, kad stovite šalia durų, tai, ką girdite, labiausiai paveikia tos durų angos buvimas, nebūtinai geometriniai bruožai, esantys toli nuo jūsų kitoje kambario pusėje. Mes nustatėme, kad ši informacija leidžia geriau apibendrinti nei paprastas visiškai prijungtas tinklas“, – sako Luo.
Nuo garsų numatymo iki scenų vizualizavimo
Tyrėjai gali pateikti NAF vaizdinę informaciją apie sceną ir keletą spektrogramų, rodančių, kaip skambėtų garso dalis, kai skleidėjas ir klausytojas yra tikslinėse vietose aplink kambarį. Tada modelis numato, kaip tas garsas skambėtų, jei klausytojas persikeltų į bet kurį scenos tašką.
NBS išveda impulsinį atsaką, kuris užfiksuoja, kaip garsas turėtų pasikeisti sklindantis per sceną. Tada mokslininkai taiko šį impulsinį atsaką skirtingiems garsams, kad išgirstų, kaip tie garsai turėtų keistis žmogui einant per kambarį.
Pavyzdžiui, jei daina groja per kambario centre esantį garsiakalbį, jų modelis parodytų, kaip tas garsas stiprėja, kai žmogus artėja prie garsiakalbio, o tada nutildomas, kai išeina į gretimą koridorių.
Kai mokslininkai palygino savo techniką su kitais metodais, modeliuojančiais akustinę informaciją, kiekvienu atveju buvo sukurti tikslesni garso modeliai. Ir kadangi jis sužinojo vietinę geometrinę informaciją, jų modelis sugebėjo apibendrinti naujas scenos vietas daug geriau nei kiti metodai.
Be to, jie nustatė, kad akustinės informacijos, kurią jų modelis išmoksta, pritaikymas kompiuteriniam modeliui gali padėti geriau vizualiai rekonstruoti sceną.
„Kai turite tik nedidelį vaizdų rinkinį, naudodami šias akustines funkcijas galite, pavyzdžiui, ryškiau užfiksuoti ribas. Ir galbūt taip yra todėl, kad norint tiksliai perteikti scenos akustiką, reikia užfiksuoti pagrindinę tos scenos 3D geometriją“, – sako Du.
Tyrėjai planuoja ir toliau tobulinti modelį, kad jis galėtų apibendrinti visiškai naujas scenas. Jie taip pat nori pritaikyti šią techniką sudėtingesniems impulsiniams atsakams ir didesnėms scenoms, tokioms kaip ištisi pastatai ar net miestas ar miestas.
„Ši nauja technika gali atverti naujų galimybių sukurti daugiarūšį įtraukiantį metaversijos taikymo patirtį“, – priduria Gan.
„Mano grupė daug dirbo naudodama mašininio mokymosi metodus, kad paspartintų akustinį modeliavimą arba modeliuotų realaus pasaulio scenų akustiką. Šis Chuang Gano ir jo bendraautorių darbas akivaizdžiai yra didelis žingsnis į priekį šia kryptimi“, – sako Dinesh Manocha, Merilendo universiteto kompiuterių mokslo ir elektros bei kompiuterių inžinerijos profesorius Paulas Chrismanas Iribe, kuris su tuo nedalyvavo. dirbti. „Konkrečiai, šiame dokumente pristatomas gražus numanomas vaizdas, galintis užfiksuoti, kaip garsas gali sklisti realaus pasaulio scenose, modeliuojant jį naudojant linijinę laiko nekintamąją sistemą. Šis darbas gali turėti daug pritaikymų AR / VR, taip pat realaus pasaulio scenos supratimą.
Šį darbą iš dalies palaiko MIT-IBM Watson AI Lab ir Tianqiao bei Chrissy Chen institutas.