Būdami kūdikiai, mokomės kalbų šnekėdami ir mėgdžiodami. Nepradedame skaityti neapdoroto teksto, nes tam reikalingos pagrindinės žinios ir supratimas apie pasaulį, taip pat išlavintas gebėjimas interpretuoti ir daryti išvadas apie aprašymus ir ryšius. Verčiau žmonės pradeda kalbų kelionę lėtai, rodydami ir sąveikaudami su aplinka, grįsdami savo žodžius ir suvokdami jų reikšmę fizinio ir socialinio pasaulio kontekste. Ilgainiui galime kurti pilnus sakinius, kuriais perteikiame sudėtingas idėjas.
Panašiai, kai žmonės pradeda mokytis ir versti į kitą kalbą, kitos juslinės informacijos, pavyzdžiui, multimedijos, įtraukimas kartu su naujais ir nežinomais žodžiais, pavyzdžiui, atmintinės su paveikslėliais, pagerina kalbos įsisavinimą ir išlaikymą. Tada, turėdami pakankamai praktikos, žmonės gali tiksliai išversti naujus, nematytus sakinius kontekste be lydinčios medijos; tačiau įsivaizduoti vaizdą pagal originalo tekstą padeda.
Tai yra MIT, IBM ir Kalifornijos universiteto San Diege mokslininkų sukurto naujo mašininio mokymosi modelio, pavadinto VALHALLA, pagrindas, kuriame apmokytas neuroninis tinklas mato pradinį sakinį viena kalba, haliucinuoja vaizdą, kaip jis atrodo, ir tada naudoja abu modelius vertimui į tikslinę kalbą. Komanda nustatė, kad jų metodas rodo didesnį mašininio vertimo tikslumą, palyginti su vertimu tik tekstu. Be to, jis papildomai padidino našumą tais atvejais, kai sakiniai yra ilgi, kalbų, kurioms trūksta išteklių, ir tais atvejais, kai dalis pradinio sakinio mašininiam vertėjui neprieinama.
Mašininis vertimas, kaip pagrindinė užduotis dirbtinio intelekto natūralios kalbos apdorojimo (NLP) srityje, yra „itin praktiška technologija, kuria kasdien naudojasi milijonai žmonių”, – sako tyrimo bendraautorius Yoon Kim, MIT Elektros inžinerijos ir informatikos katedros docentas, dirbantis Kompiuterių mokslo ir dirbtinio intelekto laboratorijoje (CSAIL) ir MIT-IBM Watson AI laboratorijoje. Pastaruoju metu, pasiekus didelę pažangą gilaus mokymosi srityje, „įdomiai vystosi tai, kaip būtų galima naudoti netekstinę informaciją, pavyzdžiui, vaizdus, garsą ar kitą pagrindinę informaciją, sprendžiant praktines užduotis, susijusias su kalba”, – sako Kim, nes „kai žmonės atlieka kalbos apdorojimo užduotis, mes tai darome pagrįstame, lokalizuotame pasaulyje” Komanda teigia, kad haliucinacinių vaizdų ir teksto sujungimas išvados metu imituoja šį procesą ir suteikia kontekstą, leidžiantį pasiekti geresnių rezultatų, palyginti su dabartiniais naujausiais metodais, kurie naudoja tik tekstinius duomenis.
Šis tyrimas šį mėnesį bus pristatytas IEEE / CVF Computer Vision and Pattern Recognition konferencijoje. Kim bendraautoriai yra Kalifornijos universiteto San Diege magistrantas Yi Li ir profesorius Nuno Vasconcelosas, taip pat mokslo darbuotojai Rameswaras Panda, Chun-fu „Ričardas” Čenas, Rogerio Feris ir IBM direktorius Davidas Koksas iš IBM tyrimų ir MIT-IBM Watson AI laboratorijos.
Mokymasis haliucinuoti iš vaizdų
Kai mokomės naujų kalbų ir versti, prieš ryždamiesi savarankiškai, dažnai gauname pavyzdžių ir praktikos. Tas pats pasakytina ir apie mašininio vertimo sistemas, tačiau jei mokant naudojami vaizdai, šiems dirbtinio intelekto metodams taip pat reikia vaizdinių priemonių testavimui, o tai apriboja jų pritaikomumą, sako Panda
„Realiuose scenarijuose galite neturėti vaizdo, susijusio su pradiniu sakiniu. Taigi, mūsų motyvacija iš esmės buvo tokia: Vietoj to, kad išvados metu kaip įvesties duomenis naudotume išorinį vaizdą, ar galėtume panaudoti regimąją haliucinaciją – gebėjimą įsivaizduoti vaizdines scenas – mašininio vertimo sistemoms tobulinti?”
Tam komanda naudojo kodavimo ir dekodavimo architektūrą su dviem transformatoriais – neuroninių tinklų modelio tipą, kuris tinka nuo sekos priklausomiems duomenims, pavyzdžiui, kalbai, galintiems atkreipti dėmesį į pagrindinius žodžius ir sakinio semantiką. Vienas transformatorius sukuria vizualinę haliucinaciją, o kitas atlieka multimodalinį vertimą, naudodamas pirmojo transformatoriaus išvestis.
Mokymo metu yra du vertimo srautai: pradinis sakinys ir su juo suporuotas pagrindinis vaizdas bei tas pats pradinis sakinys, kuris vizualiai haliucinuojamas, kad būtų sudaryta teksto ir vaizdo pora. Pirmiausia pagrindinis vaizdas ir sakinys paverčiami simboliais, kuriuos galima apdoroti transformatoriais; sakinio atveju kiekvienas žodis yra simbolis. Pirminis sakinys vėl simbolizuojamas, tačiau šį kartą jis perduodamas per regimosios haliucinacijos transformatorių, ir taip gaunama haliucinacija – diskretiška sakinio vaizdinė reprezentacija. Tyrėjai įtraukė autoregresiją, kuri palygina pagrindinės tiesos ir haliucinuotų vaizdinių atitikimą, pvz., homonimus: nuoroda į gyvūną „šikšnosparnį” nėra haliucinuojama kaip beisbolo lazda. Tada haliucinacijų transformatorius naudoja jų skirtumą, kad optimizuotų savo prognozes ir vaizdo išvestį, užtikrindamas, kad kontekstas būtų nuoseklus.
Tada abu ženklų rinkiniai vienu metu perduodami per daugiamodalinio vertimo transformatorių, kiekviename iš jų yra sakinio reprezentacija ir arba haliucinuota, arba pamatinė tiesa. Teksto vertimo išvestys su teksto ženklais lyginamos siekiant, kad jos būtų panašios viena į kitą ir į tikslinį sakinį kita kalba. Bet kokie skirtumai perduodami atgal į vertimo transformatorių tolesniam optimizavimui
. Testavimo tikslais žemės tiesos vaizdo srauto atsisakoma, nes kasdieniniuose scenarijuose vaizdai greičiausiai nebūtų prieinami.
„Kiek mums žinoma, nesame matę nė vieno darbo, kuriame haliucinacijų transformatorius iš tikrųjų būtų naudojamas kartu su multimodalinio vertimo sistema siekiant pagerinti mašininio vertimo našumą”, – sako Panda.”
Tikslinio teksto vizualizavimas
Norėdama išbandyti savo metodą, komanda išbandė VALHALLA su kitais moderniausiais multimodalinio ir tik teksto vertimo metodais. Jie naudojo viešus lyginamuosius duomenų rinkinius, kuriuose buvo pateikti pagrindiniai vaizdai su šaltinio sakiniais, ir duomenų rinkinį, skirtą tik tekstiniams naujienų straipsniams versti. Tyrėjai vertino šio metodo našumą atliekant 13 užduotis, pradedant vertimu į gerai aprūpintas kalbas (pvz., anglų, vokiečių ir prancūzų), nepakankamai aprūpintas kalbas (pvz., iš anglų į rumunų) ir ne anglų (pvz., iš ispanų į prancūzų). Grupė taip pat išbandė skirtingo dydžio transformatoriaus modelį, kaip tikslumas kinta priklausomai nuo sakinio ilgio, ir vertimą esant ribotam teksto kontekstui, kai teksto dalys buvo paslėptos nuo mašininių vertėjų.
Grupė pastebėjo, kad, palyginti su vien tik teksto vertimo metodais, gerokai pagerėjo duomenų našumas, o mažesni modeliai veikė geriau nei didesnis bazinis modelis. Ilgėjant sakiniams, VALHALLA našumas, palyginti su kitais metodais, didėjo, o tai tyrėjai aiškino tuo, kad buvo įtraukta daugiau dviprasmiškų žodžių. Tais atvejais, kai dalis sakinio buvo užmaskuota, VALHALLA galėjo atkurti ir išversti originalų tekstą, o tai komandą nustebino.
Atsirado ir kitų netikėtų rezultatų: „Tais atvejais, kai nebuvo tiek daug mokomųjų [paveikslėlių ir] teksto porų, [pavyzdžiui, kalbų su nepakankamais ištekliais atveju], patobulinimai buvo reikšmingesni, o tai rodo, kad pagrindimas paveikslėliais padeda esant mažo duomenų kiekio režimui”, – sako Kim. „Kitas dalykas, kuris mane gana nustebino, buvo tai, kad pagerėjo rezultatai net ir su teksto tipais, kurie nebūtinai lengvai susiejami su vaizdais. Pavyzdžiui, gal tai ne taip jau ir stebina, jei tai padeda versti vizualiai svarbius sakinius, pavyzdžiui, „priešais namą stovi raudonas automobilis” tačiau [tačiau] net ir tik teksto [naujienų straipsnių] srityse šis metodas sugebėjo pagerinti tik teksto sistemas.”
Nors VALHALLA veikia gerai, tyrėjai pažymi, kad ji turi trūkumų, nes reikalauja, kad sakinių poros būtų anotuojamos paveikslėliu, o tai gali brangiau kainuoti. Ji taip pat geriau veikia savo pagrindinėje srityje, o ne tik tekstiniuose naujienų straipsniuose. Be to, pažymi Kim ir Panda, toks metodas kaip VALHALLA vis dar yra juodoji dėžė, su prielaida, kad haliucinuoti vaizdai suteikia naudingos informacijos, todėl komanda planuoja ištirti, ko ir kaip modelis mokosi, kad patvirtintų savo metodus
Ateityje komanda planuoja ištirti kitas vertimo tobulinimo priemones. „Čia mes susitelkėme tik į vaizdus, tačiau yra ir kitų tipų multimodalinės informacijos – pavyzdžiui, kalbos, vaizdo ar lytėjimo, arba kitų sensorinių modalumų, – sako Panda. „Manome, kad toks multimodalinis pagrindimas gali padėti sukurti dar veiksmingesnius mašininio vertimo modelius, kurie gali būti naudingi verčiant daugeliu pasaulyje vartojamų kalbų su mažais ištekliais.”
Šį tyrimą iš dalies rėmė MIT-IBM Watson AI Lab ir Nacionalinis mokslo fondas
Daugiau: vertimų biuras