Mokslininkai iš MIT, MIT-IBM Watson AI Lab, IBM Research ir kitur sukūrė naują nepažymėtų garso ir vaizdo duomenų analizės metodą, kuris galėtų pagerinti mašininio mokymosi modelių, naudojamų tokiose programose kaip kalbos atpažinimas ir objektų aptikimas, našumą. Darbe pirmą kartą sujungiamos dvi savarankiškai prižiūrimo mokymosi architektūros, kontrastinis mokymasis ir užmaskuotas duomenų modeliavimas, siekiant išplėsti mašininio mokymosi užduotis, tokias kaip įvykių klasifikavimas vienmodaliuose ir daugiarūšiuose duomenyse, nereikalaujant anotacijų, taip atkartojant. kaip žmonės supranta ir suvokia mūsų pasaulį.
„Didesnė dalis žmonių žinių įgyjama savarankiškai prižiūrint, nes ne visada gauname priežiūros signalus, todėl norime, kad mašininio mokymosi modelis turėtų tokius pačius gebėjimus“, – sako Yuan Gong, MIT postdoc. Kompiuterių mokslo ir dirbtinio intelekto laboratorijoje (CSAIL).
„Taigi, kitas būdas yra tai, kad savarankiškai prižiūrimas mokymasis dažnai sudaro pradinio modelio pagrindą, nes jis gali mokytis iš daugybės nepaženklintų duomenų. Ir tada galite naudoti klasikinį, prižiūrimą mokymąsi arba mokymąsi sustiprinant, kad priderintumėte modelį prie kažko konkretaus, jei norite“, – sako Jimas Glassas, MIT vyresnysis mokslo darbuotojas ir MIT-IBM Watson AI laboratorijos narys.
Ši technika, vadinama kontrastiniu garso ir vaizdo maskuotu automatiniu koduotuvu (CAV-MAE), yra neuroninio tinklo tipas, galintis išmokti iš akustinių ir vaizdinių duomenų išskirti ir susieti prasmingus latentinius vaizdus į didelės dimensijos erdvę, mokantis naudotis dideliais „YouTube“ duomenų rinkiniais. garso ir vaizdo 10 sekundžių klipai. Tyrėjai teigia, kad ši technika yra veiksmingesnė už ankstesnius metodus, nes ji aiškiai modeliuoja garso ir vaizdo duomenų ryšius taip, kaip to nedaro kiti metodai.
Prie Gong ir Glass tyrime prisijungia magistrantai Andrew Rouditchenko ir Alexander H. Liu iš MIT, David Harwath ’18 PhD iš Teksaso universiteto Ostine ir MIT-IBM Watson AI Lab nariai Leonidas Karlinsky ir Hilde Kuehne. Kuehne taip pat yra susijęs su Frankfurto Goethe universitetu. Šis metodas neseniai buvo pristatytas tarptautinėje mokymosi reprezentacijų konferencijoje.
Bendras ir koordinuotas požiūris
CAV-MAE veikia „mokydamasis numatant“ ir „mokydamasis lyginant“, sako Gongas. Užmaskuotų duomenų modeliavimas arba numatymo metodas paima vaizdo įrašą kartu su suderinta garso bangos forma, konvertuoja garsą į spektrogramą ir užmaskuoja 75 procentus abiejų. Neužmaskuoti duomenys yra ženklinami, tada įvedami į atskirus garso ir vaizdo koduotuvus prieš įvedant bendrą kodavimo įrenginį / dekoderį, kur modelio prašoma atkurti trūkstamus duomenis. Tada skirtumas (rekonstrukcijos praradimas) tarp gautos rekonstruotos prognozės ir originalaus garso ir vaizdo derinio naudojamas modeliui treniruoti siekiant geresnio veikimo. To pavyzdys galėtų būti dalis fortepijono vaizdo įrašo ir dalies fortepijoninės muzikos spektrogramos uždengimas, o tada paprašyti modelio pabandyti nustatyti užmaskuotas įvestis. Deja, šis metodas gali neužfiksuoti vaizdo ir garso poros sąsajos, o kontrastinis mokymasis tai sustiprina, tačiau gali atmesti tam tikrą modalumui būdingą informaciją, pvz., vaizdo įrašo foną.
Kontrastyviuoju mokymusi siekiama nustatyti vaizdus, kurie yra panašūs vienas į kitą. Pavyzdžiui, modelis bandys išdėstyti skirtingus skirtingų papūgų vaizdo ir garso duomenis arti vienas kito ir toliau nuo grojančių gitarų vaizdo ir garso porų. Panašiai kaip užmaskuotas automatinis kodavimas, garso ir vaizdo poros perduodamos į atskirus modalumo koduotuvus; tačiau garso ir vaizdo komponentai yra laikomi atskirai jungtinio kodavimo įrenginyje prieš modeliui atliekant telkimą ir kontrasto praradimą. Tokiu būdu kontrastinis mokymasis bando nustatyti kiekvieno garso ar vaizdo įrašo dalis, kurios yra labiausiai susijusios su kitu. Pavyzdžiui, jei vaizdo įraše matoma, kaip kažkas kalba, o atitinkamame garso klipe yra kalbos, automatinis kodavimo įrenginys išmoks susieti kalbėtojo burnos judesius su sakomais žodžiais. Tada jis pakoreguos modelio parametrus taip, kad tie įėjimai būtų vaizduojami arti vienas kito. Galiausiai, CAV-MAE metodas sujungia abi technologijas su keliais tiesioginiais duomenų srautais su maskavimu, kaip pirmuoju žingsniu, modalumui būdingais kodavimo įrenginiais ir sluoksnio normalizavimu, kad atvaizdavimo stiprumas būtų panašus.
„Mes [then] norėjome palyginti siūlomą CAV-MAE su modeliu, apmokytu tik su maskuotu automatiniu koduotuvu, ir modeliu, apmokytu tik su kontrastiniu mokymusi, nes norime parodyti, kad derindami maskuotą automatinį kodavimo įrenginį ir kontrastinį mokymąsi galime šiek tiek pagerinti našumą“, – sako Gongas. , „ir rezultatai patvirtina mūsų hipotezę, kad akivaizdus pagerėjimas“.
Tyrėjai išbandė CAV-MAE, taip pat jų metodą be kontrastinių nuostolių ar užmaskuoto automatinio kodavimo, palyginti su kitais moderniausiais garso ir vaizdo gavimo ir garso ir vaizdo įvykių klasifikavimo užduočių metodais, naudodami standartinį garso rinkinį (20K ir 2M). ir VGGSound duomenų rinkiniai – pažymėti, tikroviški trumpi klipai, kuriuose gali būti keli garsai. Garso ir vaizdo paieška reiškia, kad modelis mato užklausos poros garso arba vaizdo komponentą ir ieško trūkstamo; įvykių klasifikacija apima duomenų veiksmų ar garsų, pvz., dainuojančio asmens ar vairuojančio automobilio, identifikavimą.
Apskritai jie nustatė, kad kontrastinis mokymasis ir užmaskuotas duomenų modeliavimas yra vienas kitą papildantys metodai. CAV-MAE sugebėjo maždaug 2 procentais pranokti ankstesnius metodus (su visiškai savarankiškai prižiūrimu išankstiniu mokymu) renginių klasifikavimo našumo modeliams su panašiu skaičiavimu ir, dar įspūdingiau, žengė koja kojon su modeliais su pramonės lygio skaičiavimo ištekliais arba pralenkė juos. Komandos modelis buvo įvertintas panašiai kaip modeliai, treniruojami tik su kontrastiniu nuostoliu. Ir nenuostabu, kad komanda teigia, kad daugiarūšių duomenų įtraukimas į CAV-MAE išankstinį mokymą labai pagerina vieno modalumo atvaizdavimo koregavimą per prižiūrimą mokymąsi (su kai kuriais pažymėtais duomenimis) ir našumą atliekant tik garso įvykių klasifikavimo užduotis. . Tai rodo, kad, kaip ir žmonės, daugiarūšė informacija suteikia papildomą „minkštą etiketę“ net atliekant tik garso ar vaizdo užduotis; Pavyzdžiui, tai padeda modeliui suprasti, ar jis ieško elektrinės ar akustinės gitaros – turtingesnio priežiūros signalo.
„Manau, kad žmonėms patinka šio modelio elegancija derinant informaciją skirtinguose garso ir vaizdo srautuose. Jis pasižymi kontrastingumu ir rekonstrukcijos praradimu, o palyginti su modeliais, kurie buvo įvertinti naudojant panašius duomenis, jis akivaizdžiai labai gerai atlieka įvairias šias užduotis“, – sako Glassas.
Remiantis tuo, „vienas ypatingas dalykas yra tai, kad mūsų modelis gali atlikti ir klasifikavimą, ir paiešką, o tai nėra įprasta“, – priduria Gongas. „Prieš šį darbą šie metodai buvo naudojami atskirai, bet po šio darbo matau, kad daugumoje garso ir vaizdo mokymosi schemų netiesiogiai arba aiškiai naudojamas sutrumpinimo praradimas ir užmaskuotas automatinis kodavimo įrenginys.
Į mūsų pasaulį įtraukiame savarankišką audiovizualinį mokymąsi
Tyrėjai mano, kad kontrastinio garso ir vaizdo maskuoto automatinio kodavimo (CAV-MAE) indėlis yra svarbus etapas ir žingsnis į priekį taikant programas, kurios vis labiau pereina nuo vieno modalumo prie daugiarūšio ir kurioms reikalingas garso ir vaizdo suliejimas. Jie iškėlė hipotezę, kad vieną dieną jis galėtų būti naudojamas veiksmams atpažinti tokiose srityse kaip sportas, švietimas, pramogos, motorinės transporto priemonės ir visuomenės saugumas. Jis taip pat vieną dieną gali būti taikomas ir kitiems būdams. Šiuo metu faktas, kad „tai taikoma tik garso ir vaizdo duomenims, gali būti apribojimas, tačiau mes orientuojamės į daugiarūšį mokymąsi, o tai yra mašininio mokymosi tendencija“, – sako Gongas. „Kaip žmonės, mes turime įvairiarūšius dalykus – turime kvapą, lytėjimą – daug daugiau dalykų, ne tik garso ir vaizdo. Taigi, kai bandome sukurti dirbtinį intelektą, bandome kažkaip imituoti žmones, nebūtinai iš biologinės perspektyvos, ir šis metodas gali [potentially be] apibendrintas su kitais neištirtais būdais.
Kadangi mašininio mokymosi modeliai ir toliau atlieka vis svarbesnį vaidmenį mūsų gyvenime, tokie metodai kaip šis taps vis vertingesni.
Šį tyrimą palaikė MIT-IBM Watson AI Lab.

