Būdami kūdikiai, mes burbuojame ir mėgdžiojame savo kelią mokytis kalbų. Nepradedame skaityti neapdoroto teksto, kuriam reikia pagrindinių žinių ir supratimo apie pasaulį, taip pat pažangių gebėjimų interpretuoti ir daryti išvadas aprašymuose ir santykiuose. Atvirkščiai, žmonės mūsų kalbos kelionę pradeda lėtai, rodydami aplinką ir sąveikaudami su ja, pagrįsdami žodžius ir suvokdami jų reikšmę fizinio ir socialinio pasaulio kontekste. Galų gale galime sudaryti ištisus sakinius, kad perteiktų sudėtingas idėjas.
Panašiai, kai žmonės pradeda mokytis ir versti į kitą kalbą, įtraukiama kita jutiminė informacija, pvz., daugialypės terpės, suporuota su nauja ir nepažįstami žodžiai, pavyzdžiui, kortelės su vaizdais, pagerina kalbos įsisavinimą ir išlaikymą. Tada, turėdami pakankamai praktikos, žmonės gali tiksliai išversti naujus, nematytus sakinius kontekste be lydinčios žiniasklaidos; tačiau padeda įsivaizduoti paveikslėlį, pagrįstą originaliu tekstu.
Tai yra naujo mašininio mokymosi modelio, pavadinto VALHALLA, pagrindas, kurį sukūrė MIT, IBM ir Kalifornijos universiteto mokslininkai San Diegas, kuriame apmokytas neuroninis tinklas mato šaltinio sakinį viena kalba, haliucinuoja vaizdą, kaip jis atrodo, ir tada naudoja abu, kad išverstų į tikslinę kalbą. Komanda nustatė, kad jų metodas rodo didesnį mašininio vertimo tikslumą, palyginti su tik teksto vertimu. Be to, tai suteikė papildomą postūmį atvejams, kai naudojami ilgi sakiniai, nepakanka kalbų ir tais atvejais, kai dalis šaltinio sakinio yra nepasiekiama mašininiam vertėjui.
Kaip pagrindinė užduotis. AI natūralios kalbos apdorojimo (NLP) sritis, mašininis vertimas yra „ypač praktiška technologija, kurią kasdien naudoja milijonai žmonių“, – sako tyrimo bendraautorius Yoon Kim, MIT Elektros inžinerijos ir kompiuterių mokslo katedros docentas. Kompiuterių mokslo ir dirbtinio intelekto laboratorijoje (CSAIL) ir MIT-IBM Watson AI laboratorijoje. Dėl pastarojo meto reikšmingos giluminio mokymosi pažangos „pavyko įdomių pokyčių, kaip panaudoti netekstinę informaciją, pavyzdžiui, vaizdus, garsą ar kitą pagrindinę informaciją, sprendžiant praktines užduotis, susijusias su kalba“, sako Kim, nes „kai žmonės atlieka kalbos apdorojimo užduotis, mes tai darome pagrįstame, išsidėsčiusiame pasaulyje. Grupė teigė, kad haliucinuotų vaizdų ir teksto susiejimas darant išvadas imituoja šį procesą, suteikdamas kontekstą geresniam našumui, palyginti su dabartinėmis naujausiomis technikomis, kuriose naudojami tik tekstiniai duomenys.
Šis tyrimas bus pristatytas IEEE / CVF kompiuterinės vizijos ir modelių atpažinimo konferencijoje šį mėnesį. Kim bendraautoriai yra UC San Diego absolventas Yi Li ir profesorius Nuno Vasconcelos, taip pat mokslinių tyrimų darbuotojai Rameswar Panda, Chun-fu „Richard” Chen, Rogerio Feris ir IBM direktorius David Cox iš IBM tyrimų ir MIT-IBM Watson. AI Lab.
Mokymasis haliucinuoti iš vaizdų
Kai mokomės naujų kalbų o norint išversti, dažnai pateikiami pavyzdžiai ir praktika prieš pradedant savarankiškai. Tas pats pasakytina apie mašininio vertimo sistemas; Tačiau, jei treniruočių metu naudojami vaizdai, šiems AI metodams taip pat reikia vaizdinių priemonių testavimui, o tai riboja jų pritaikymą, sako Panda.
„Realus scenarijus gali neturėti vaizdo šaltinio sakinio atžvilgiu. Taigi, mūsų motyvacija iš esmės buvo tokia: užuot naudoję išorinį vaizdą darant išvadas kaip įvestį, ar galime panaudoti vizualines haliucinacijas – galimybę įsivaizduoti vaizdines scenas – tobulinti mašininio vertimo sistemas? sako Panda.
Kad tai padarytų, komanda naudojo kodavimo-dekoderio architektūrą su dviem transformatoriais – neuroninio tinklo modelio tipą, kuris tinka nuo sekos priklausomiems duomenims, pvz., kalbai, kuri gali mokėti. dėmesys sakinio raktiniams žodžiams ir semantikai. Vienas transformatorius sukuria regimąją haliucinaciją, o kitas atlieka multimodalinį vertimą naudodamas pirmojo transformatoriaus išvestis.
Mokymų metu yra du vertimo srautai: šaltinio sakinys ir pagrindinės tiesos vaizdas. kuris yra suporuotas su juo, ir tas pats šaltinio sakinys, kuris vizualiai haliucinuojamas, kad būtų sudaryta teksto ir vaizdo pora. Pirmiausia tiesos atvaizdas ir sakinys sujungiami į reprezentacijas, kurias gali apdoroti transformatoriai; sakinio atveju kiekvienas žodis yra ženklas. Šaltinio sakinys vėl ženklinamas, bet šį kartą perduotas per regos haliucinacijų transformatorių, išvedant haliucinaciją, atskirą sakinio atvaizdą. Tyrėjai įtraukė autoregresiją, kuri lygina pagrindinę tiesą ir haliucinuotus atitikimo vaizdus, pvz., homonimus: nuoroda į gyvūno „šikšnosparnį“ nėra haliucinuojama kaip beisbolo lazda. Tada haliucinacijų transformatorius naudoja skirtumą tarp jų, kad optimizuotų savo prognozes ir vizualinę išvestį, užtikrindamas, kad kontekstas būtų nuoseklus.
Tada du žetonų rinkiniai vienu metu perduodami per daugiarūšį vertimo transformatorių, kiekviename iš jų yra sakinio vaizdavimas ir haliucinacijos arba tikros tiesos vaizdas. Tokenizuoto teksto vertimo išvestis lyginama su tikslu būti panašiems vienas į kitą ir į tikslinį sakinį kita kalba. Bet kokie skirtumai perduodami atgal į vertimo transformatorių, kad būtų galima toliau optimizuoti.
Tikrinant pagrindinio tiesos vaizdų srautas nukrenta, nes vaizdai greičiausiai nebus pasiekiami kasdieniais scenarijais.
„Mūsų žiniomis, nematėme jokio darbo, kuriame iš tikrųjų būtų naudojamas haliucinacijų transformatorius kartu su multimodaline vertimo sistema, siekiant pagerinti mašininio vertimo našumą“, – sako Panda.
Tikslinio teksto vizualizavimas
Kad išbandytų savo metodą, komanda VALHALLA priešinosi kitiems moderniausi daugiarūšio ir tik tekstinio vertimo metodai. Jie naudojo viešus lyginamuosius duomenų rinkinius, kuriuose buvo tikros tiesos vaizdai su šaltinio sakiniais, ir duomenų rinkinį, skirtą tik tekstiniams naujienų straipsniams versti. Tyrėjai įvertino jo našumą atlikdami 13 užduotis, pradedant vertimu į gerai išteklius turinčias kalbas (pvz., anglų, vokiečių ir prancūzų kalbas), į mažai išteklių turinčias kalbas (pvz., iš anglų į rumunų) ir į ne anglų kalbas. (kaip ispanų į prancūzų). Grupė taip pat išbandė skirtingus transformatorių modelių dydžius, kaip tikslumas kinta priklausomai nuo sakinio ilgio, ir vertimą ribotame tekstiniame kontekste, kai teksto dalys buvo paslėptos nuo mašininių vertėjų.
Komanda stebėjo reikšmingi patobulinimai, palyginti su tik teksto vertimo metodais, pagerintas duomenų efektyvumas ir kad mažesni modeliai veikė geriau nei didesnis bazinis modelis. Ilgėjant sakiniams, VALHALLA našumas, palyginti su kitais metodais, augo, o tai mokslininkai priskyrė prie daugiau dviprasmiškų žodžių. Tais atvejais, kai dalis sakinio buvo užmaskuota, VALHALLA galėjo susigrąžinti ir išversti originalų tekstą, kurį komanda nustebino.
Atsirado ir kitų netikėtų išvadų: „Ten, kur nebuvo tiek daug mokymų [vaizdo ir] teksto porų, [pavyzdžiui, kalbant, kurioms trūksta išteklių], patobulinimai buvo reikšmingesni, o tai rodo, kad vaizdų įžeminimas padeda mažai duomenų režimais“, – sako Kim. „Kitas dalykas, kuris mane labai nustebino, buvo tai patobulinimas. našumas, net ir naudojant teksto tipus, kurie nebūtinai lengvai susiejami su vaizdais. Pavyzdžiui, galbūt nenuostabu, jei tai padeda išversti vizualiai ryškius sakinius, pvz., „prieš namą yra raudonas automobilis“. [Tačiau] net tik teksto [naujienų straipsnių] srityse šis metodas galėjo patobulinti tik teksto sistemas.“
Nors VALHALLA veikia gerai, mokslininkai pastebi, kad turi apribojimų, todėl sakinių poras reikia komentuoti vaizdu, todėl jį gauti gali būti brangiau. Jis taip pat veikia geriau savo pagrindiniame domene, o ne tik tekstiniuose naujienų straipsniuose. Be to, Kim ir Panda pažymi, kad tokia technika kaip VALHALLA vis dar yra juodoji dėžė, darant prielaidą, kad haliucinuoti vaizdai suteikia naudingos informacijos, o komanda planuoja ištirti, ko ir kaip modelis mokosi, kad patvirtintų savo metodus.
Ateityje komanda planuoja ieškoti kitų būdų, kaip pagerinti vertimą. „Čia mes sutelkiame dėmesį tik į vaizdus, tačiau yra ir kitų rūšių multimodalinės informacijos, pavyzdžiui, kalbos, vaizdo ar prisilietimo ar kitų jutimo būdų“, – sako Panda. „Manome, kad toks daugiarūšis įžeminimas gali lemti dar efektyvesnį mašininį vertimą n modelių, kurie gali būti naudingi vertimui į daugelį pasaulyje vartojamų mažai išteklių naudojančių kalbų.“
Šį tyrimą iš dalies palaikė MIT-IBM Watson AI Lab ir Nacionalinis mokslo fondas. .

