Žmonės stebi pasaulį derindami įvairius būdus, pavyzdžiui, regėjimą, klausą ir kalbos supratimą. Kita vertus, mašinos interpretuoja pasaulį naudodamos duomenis, kuriuos gali apdoroti algoritmai
Taigi, kai mašina „mato” nuotrauką, ji turi užkoduoti tą nuotrauką į duomenis, kuriuos gali panaudoti tokiai užduočiai, kaip vaizdų klasifikavimas, atlikti. Šis procesas tampa dar sudėtingesnis, kai įvestis gaunama keliais formatais, pavyzdžiui, vaizdo įrašai, garso įrašai ir vaizdai
.
„Pagrindinis iššūkis šiuo atveju yra, kaip mašina gali suderinti šiuos skirtingus modalumus? Mums, kaip žmonėms, tai padaryti lengva. Matome automobilį ir girdime važiuojančio automobilio garsą, ir žinome, kad tai yra tas pats dalykas. Tačiau mašinų mokymosi atveju tai nėra taip paprasta”, – sako Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) magistrantas Aleksandras Liu (Alexander Liu), kuris yra pirmasis šią problemą sprendžiančio straipsnio autorius.
Liu ir jo bendradarbiai sukūrė dirbtinio intelekto metodą, kuriuo mokomasi atvaizduoti duomenis taip, kad būtų galima užfiksuoti sąvokas, kurios yra bendros regos ir garso modalumams. Pavyzdžiui, jų metodas gali sužinoti, kad vaizdo įraše matomas kūdikio verksmas yra susijęs su garso įraše pasakytu žodžiu „verkia”
Naudodamasis šiomis žiniomis, jų mašininio mokymosi modelis gali nustatyti, kur vaizdo įraše vyksta tam tikras veiksmas, ir jam suteikti etiketę
Jis geriau nei kiti mašininio mokymosi metodai atlieka kryžminės paieškos užduotis, kai reikia surasti duomenų dalį, pavyzdžiui, vaizdo įrašą, atitinkantį vartotojo užklausą, pateiktą kita forma, pavyzdžiui, šnekamąja kalba. Jų modelis taip pat leidžia vartotojams lengviau suprasti, kodėl mašina mano, kad vaizdo įrašas atitinka jų užklausą.
Šis metodas kada nors galėtų būti panaudotas padėti robotams mokytis apie pasaulio sąvokas per suvokimą, panašiai kaip tai daro žmonės.
Kartu su Liu prie šio straipsnio prisidėjo CSAIL doktorantas SouYoung Jin, magistrantai Cheng-I Jeff Lai ir Andrew Rouditchenko, CSAIL vyresnioji mokslininkė ir MIT-IBM Watson dirbtinio intelekto laboratorijos direktorė Aude Oliva ir vyresnysis autorius James Glass, CSAIL Šnekamosios kalbos sistemų grupės vyresnysis mokslininkas ir vadovas. Tyrimas bus pristatytas metiniame Kompiuterinės lingvistikos asociacijos susitikime.
Reprezentacijų mokymasis
Tyrėjai savo darbe daugiausia dėmesio skiria reprezentacijų mokymuisi, kuris yra mašininio mokymosi forma, siekianti transformuoti įvesties duomenis, kad būtų lengviau atlikti tokią užduotį kaip klasifikavimas ar prognozavimas
Reprezentacijų mokymosi modelis paima neapdorotus duomenis, pavyzdžiui, vaizdo įrašus ir atitinkamus tekstinius užrašus, ir juos užkoduoja, išskirdamas požymius arba pastabas apie vaizdo įraše esančius objektus ir veiksmus. Tuomet jis šiuos duomenų taškus atvaizduoja tinklelyje, vadinamame įterpimo erdve. Modelis grupuoja panašius duomenis kaip atskirus taškus tinklelyje. Kiekvienas iš šių duomenų taškų, arba vektorių, žymimas atskiru žodžiu.
Pavyzdžiui, žongliruojančio asmens vaizdo įrašas gali būti atvaizduotas kaip vektorius, pažymėtas „žongliravimas”
Tyrėjai apriboja modelį taip, kad jis gali naudoti tik 1,000 žodį vektoriams žymėti. Modelis gali nuspręsti, kokius veiksmus ar sąvokas jis nori užkoduoti viename vektoriuje, tačiau jis gali naudoti tik 1,000 vektorių. Modelis pasirenka žodžius, kurie, jo manymu, geriausiai atspindi duomenis.
Užuot kodavus skirtingų modalumų duomenis atskiruose tinkleliuose, jų metodas naudoja bendrą įterpimo erdvę, kurioje du modalumai gali būti koduojami kartu. Tai leidžia modeliui išmokti ryšį tarp dviejų modalumų reprezentacijų, pavyzdžiui, vaizdo įrašo, kuriame matomas žongliruojantis žmogus, ir garso įrašo, kuriame girdimas žmogus, sakantis „žongliravimas”.
Kad padėtų sistemai apdoroti kelių modalumų duomenis, jie sukūrė algoritmą, kuris nurodo mašinai koduoti panašias sąvokas tame pačiame vektoriuje.
„Jei yra vaizdo įrašas apie kiaules, modelis gali priskirti žodį „kiaulė” vienam iš 1,000 vektorių. Tada, jei modelis išgirs, kad garso įraše kas nors taria žodį „kiaulė”, jis vis tiek turėtų naudoti tą patį vektorių šiam žodžiui užkoduoti”, – aiškina Liu.
Geresnis retriveris
Jie išbandė modelį atlikdami įvairiarūšės paieškos užduotis, naudodami tris duomenų rinkinius: vaizdo ir teksto duomenų rinkinį su vaizdo klipais ir tekstiniais užrašais, vaizdo ir garso duomenų rinkinį su vaizdo klipais ir garsiniais užrašais bei vaizdo ir garso duomenų rinkinį su vaizdais ir garsiniais užrašais.
Pavyzdžiui, vaizdo ir garso duomenų rinkinyje modelis pasirinko 1,000 žodžius veiksmams vaizdo įrašuose reikšti. Tada, kai tyrėjai pateikė jam garso užklausas, modelis stengėsi rasti klipą, kuris geriausiai atitiktų tuos žodžius.
„Panašiai kaip „Google” paieškoje, įvedate tam tikrą tekstą, o mašina bando pasakyti jums tinkamiausius dalykus, kurių ieškote. Tik mes tai darome vektorių erdvėje”, – sako Liu.
Jų metodas ne tik padėjo rasti geresnius atitikmenis nei modeliai, su kuriais jie lygino, bet ir yra lengviau suprantamas.
Kadangi modelis vektoriams žymėti galėjo naudoti tik 1,000 iš viso žodžių, vartotojas gali lengviau suprasti, kokius žodžius mašina naudojo darydama išvadą, kad vaizdo įrašas ir sakomi žodžiai yra panašūs. Dėl to modelį būtų lengviau taikyti realiose situacijose, kai labai svarbu, kad naudotojai suprastų, kaip jis priima sprendimus, sako Liu.
Modelis vis dar turi tam tikrų trūkumų, kuriuos jie tikisi pašalinti būsimuose darbuose. Pirma, jų tyrime daugiausia dėmesio skirta dviejų modalumų duomenims vienu metu, tačiau realiame pasaulyje žmonės vienu metu susiduria su daugeliu duomenų modalumų, sako Liu.
„Ir mes žinome, kad 1,000 žodžiai veikia tokio tipo duomenų rinkiniuose, tačiau nežinome, ar tai galima pritaikyti realaus pasaulio problemoms”, – priduria jis.
Be to, jų duomenų rinkiniuose esančiuose vaizduose ir vaizdo įrašuose buvo paprasti objektai arba nesudėtingi veiksmai; realaus pasaulio duomenys yra daug chaotiškesni. Jie taip pat nori nustatyti, kaip gerai jų metodas pritaikomas, kai yra didesnė įvesties duomenų įvairovė.
Šį tyrimą iš dalies rėmė MIT-IBM Watson AI Lab ir jai priklausančios bendrovės Nexplore ir Woodside bei MIT Linkolno laboratorija.