Sukurti mašininio vertimo įrankį, kuris padėtų prieglobsčio prašytojams pasienyje

Kreditas: CC0 viešasis domenas Įsivaizduokite, kaip bėgate nuo persekiojimo namuose, išgyvenate sunkią kelionę, atvykstate į naują šalį prašyti prieglobsčio, o pasienyje būti atstumtas, nes niekas nekalba jūsų kalba. Tai yra šimtai migrantų, atvykstančių į JAV iš atokių Centrinės Amerikos vietovių, kurie nemoka bendrų kalbų, pavyzdžiui, ispanų ar portugalų, tikrovė.

Vietiniams prieglobsčio prašytojams, kalbantiems tradicinėmis kalbomis, trūksta vertėjų, todėl daugelis Meksikoje turi laukti mėnesius ar net metus, kad galėtų kreiptis dėl prieglobsčio prašytojų. prieglobsčio, sukuriant ilgą atsilikimą ir taip perpildytoje imigracijos sistemoje.

TAU TAIP PAT GALI PATIKTI

Nuo iliuzijos iki realybės: kaip dirbtinis intelektas keičia žaidimų industriją

Komisija nubrėžia kelią Europos lyderystei dirbtinio intelekto srityje – pristatytas ambicingas „Dirbtinio intelekto žemyno veiksmų planas“

„JAV imigracijos sistema sukurta taip, kad galėtų valdyti anglų ir ispanų kalbas“, – sakė mokslų daktarė Katy Felkner. kompiuterių mokslų studentas USC Viterbi inžinerijos mokykloje, „tačiau per metus yra keli šimtai žmonių, kalbančių mažumų kalbomis, ypač kalbančių čiabuvių kalbomis iš Meksikos ir Centrinės Amerikos, kurie negali pasiekti jokių išteklių. ir teisinė pagalba ispanakalbiams migrantams“.

Kitais atvejais žmonės negali paaiškinti, kokios grėsmės jų gyvybei jų gimtajame mieste gali būti prieglobsčio suteikimo pagrindas. . Kai migrantai negali suprasti arba būti suprasti, nėra jokio būdo nustatyti grėsmę jų saugumui per „patikimą baimės interviu“, kurį atliko JAV Tėvynės saugumo departamentas. Statistika stulbinanti: prieglobsčio ieškantys imigrantai be advokato vyravo tik procentų jų bylų, o tos, kuriose yra advokatas, nugalėjo procentų jų atvejų, rodo Fordham Law Review atliktas tyrimas.

Felkner, kuri atlieka tyrimus USC Informacijos mokslų institute (ISI), vadovaujama mokslinio tyrimo docento Jonathano May. kuriant sprendimą: mašininio vertimo sistemą Meksikos ir Centrinės Amerikos čiabuvių kalboms, kurią gali naudoti organizacijos, teikiančios teisinę pagalbą pabėgėliams ir prieglobsčio prašytojams.

„Žmonėms daromas tiesioginis neigiamas poveikis, nes teisinės pagalbos organizacijose nėra jų kalbų vertėjų“, – sakė Felkneris. . „Tai konkretus ir betarpiškas būdas panaudoti natūralios kalbos apdorojimą socialinei naudai.“

„Žmonės tiesiogiai veikia turi neigiamą poveikį, nes teisinės pagalbos organizacijose nėra jų kalbų vertėjų žodžiu. Katy Felkner.

Tinkamų galimybių suteikimas prieglobsčio prašytojams

Felkner šiuo metu kuria sistemą, skirtą gvatemaliečių kalbai, kuri yra viena iš 25 dažniausiai vartojamų kalbų imigracijos teisme pastaraisiais metais, rašo „The New York“. Laikai.

„Stengiamės pateikti neapdorotą vertimo sistemą, kad ne pelno organizacijos ir NVO, kurios neturi išteklių samdyti vertėjų, kad suteiktų tam tikro lygio teisinę pagalbą ir suteiktų prieglobsčio prašytojams teisingą šansą išgyventi tą patikimą baimės pokalbį“, – sakė Felkneris.

Felkner domėtis kalbomis pradėjo bakalauro laipsnį Oklahomos universitete, kur ji įgijo dvigubą informatikos ir informatikos laipsnį. raidėmis, daugiausia dėmesio skiriant lotynų kalbai. Pirmaisiais koledžo metais ji dirbo projekte, pavadintame Skaitmenine lotynų biblioteka, rašė Python kodą, kad sukurtų skaitmenines senovinių tekstų versijas.

„Štai dėl to aš susimąsčiau apie kalbos technologijas“, – sakė Felkneris. „Išmokau save kai kurių natūralios kalbos apdorojimo pagrindų ir galiausiai sutelkiau dėmesį į mašininį vertimą, nes manau, kad tai viena iš sričių, turinčių didžiausią poveikį žmogui, ir taip pat viena sunkiausių problemų šioje srityje.

Nors Felkneris ir May šiuo metu daugiausia dėmesio skiria teksto vertimo į tekstą kūrimui, galutinis tikslas po metų, yra daugiakalbė kalbos į kalbą vertimo sistema: advokatas kalbėtų angliškai arba ispaniškai, o sistema automatiškai išverstų į prieglobsčio prašytojo čiabuvių kalbą ir atvirkščiai.

Pastumti apatinę ribą

Vertimo sistemos mokomos naudojant lygiagrečius duomenis: kitaip tariant, jos mokosi matydamos vertimą poromis arba tą patį tekstą abiem kalbomis sakinio lygmeniu. Tačiau yra labai mažai lygiagrečių duomenų vietinėmis kalbomis, įskaitant kʼicheʼ, nepaisant to, kad ja kalba maždaug vienas milijonas žmonių.

Taip yra todėl, kad lygiagretūs duomenys egzistuoja tik tada, kai yra įtikinamų priežasčių versti į tą kalbą arba iš jos. Iš esmės, sakė Felkneris, jei tai komerciškai perspektyvu (pavyzdžiui, Disney dubliuoja filmus iš anglų į ispanų kalbą) arba kyla dėl religinių motyvų.

Daugeliu atvejų dėl misionierių įtakos visoje Lotynų Amerikoje vienintelis lygiagretus duomenų šaltinis – tas pats tekstas abiejuose kalbas – tai Biblija, su kuria tyrinėtojams nėra daug ko dirbti.

„Įsivaizduokite, kad esate anglakalbis, bandantis išmokti ispanų kalbą, bet vienintelė ispanų kalba, kurią jums kada nors leista matyti, yra Naujasis Testamentas“, – sakė Felkneris. – Tai būtų gana sunku.

Tai bloga žinia duomenų ištroškusiems giluminio mokymosi modeliams, kuriuos naudoja kalbų vertimo sistemos, kurios laikosi kiekybės, o ne kokybės metodo.

„Modeliai turi daug kartų pamatyti žodį, frazę, gramatinę konstrukciją, kad pamatytų, kur tai gali atsirasti, ir ką ji atitinka kita kalba“, – sakė Felkneris. „Tačiau mes to neturime kʼicheʼ ir kitų labai mažai išteklių turinčių vietinių kalbų.”

Skaičiai kalba patys už save. Iš anglų kalbos į Kʼicheʼ, Felkner turi maždaug 15 lygiagrečių duomenų sakiniai ir 8,000 sakiniai ispanų kalba į Kʼicheʼ. Priešingai, ispanų į anglų modelis, kurį ji apmokė tam tikram pradiniam darbui, turėjo milijonus sakinių. duomenis.

„Stengiamės dirbti iš esmės neturėdami jokių duomenų“, – sakė Felkneris. „Ir tai pasakytina apie beveik visas mažai išteklių reikalaujančias kalbas, ypač Amerikoje.”

Viena iš esamų mažai išteklių reikalaujančių darbų taktika kaip atspirties tašką naudoja glaudžiai susijusias, daug išteklių turinčias kalbas: pavyzdžiui, norint išversti iš anglų kalbos į rumunų kalbą, pradėtumėte treniruoti modelį ispanų kalba.

Tačiau kadangi Amerikos čiabuvių kalbos vystėsi atskirai nuo Europos ir Azijos, dauguma jų yra mažai išteklių ištekliai, o dauguma jų yra labai mažai išteklių, terminas, kurį Felkner sugalvojo apibūdinti kalbai, kurioje yra mažiau nei maždaug 15, lygiagrečių duomenų sakiniai.

„Mes tikrai stengiamės nustatyti apatinę ribą, kiek duomenų galite turėti, kad sėkmingai išmokytumėte mašininio vertimo sistemą “, – sakė Felkneris.

Kažko kūrimas iš nieko

Tačiau Felkner, turinti kalbotyros išsilavinimą, nebuvo atgrasi. Per pastaruosius dvejus metus ji dirbo kurdama kalbinius modelių duomenis, naudodama kai kurias natūralios kalbos apdorojimo gudrybes.

Viena taktika apima modelio mokymą atlikti abstrakčią vertimo užduotį ir tada nustatyti, kad jis veiktų su konkrečia kalba. . „Tai toks pat principas, kaip išmokti vairuoti autobusą, pirmiausia išmokus vairuoti automobilį“, – sakė Felkneris.

Norėdamas tai padaryti, Felkneris paėmė modelį iš anglų kalbos į ispanų kalbą, o tada patikslino jį Kʼicheʼ į ispanų kalbą. Paaiškėjo, kad šis metodas, vadinamas perkėlimo mokymusi, buvo perspektyvus net ir labai mažai išteklių atveju. „Tai buvo labai įdomu“, – sakė Felkneris. „Mokymosi perkėlimo metodas ir išankstinis mokymas iš artimai nesusijusios kalbos niekada nebuvo išbandytas šioje itin mažai išteklių turinčioje aplinkoje, ir aš pastebėjau, kad tai veikė.

Ji taip pat pasinaudojo kitu šaltiniu: naudojo gramatikos knygas, išleistas lauko kalbininkų viduryje arba pabaigoje 70 s generuoti patikimus sintetinius duomenis, kurie gali būti naudojami siekiant padėti modeliams mokytis. Felkner naudoja gramatikos knygas rašydamas taisykles, kurios padės jai sudaryti sintaksiškai teisingus sakinius iš žodynų. Techninis terminas tai yra įkrovimas arba duomenų papildymas arba šnekamojoje kalboje „fake it ‘tol you make it“.

„Mes naudojame tai kaip išankstinius mokymo duomenis, kad iš esmės išmokytume modelius gramatikos pagrindų“, – sakė Felkneris. „Tada galime išsaugoti savo tikrus duomenis, pvz., Biblijos lygiagrečius duomenis, kad būtų galima tiksliai nustatyti, kas yra prasminga semantiškai arba kas iš tikrųjų yra prasminga“ . ) Galiausiai ji išbando techniką, kuri apima daiktavardžių analizavimą anglų ir kʼicheʼ Biblijos pusėse, pakeičiant juos kitais daiktavardžiais, o tada taiko taisyklių rinkinį, kad teisingai linksniuotų sakiniai gramatikai.

Pavyzdžiui, jei treniruočių duomenyse yra sakinys: „berniukas spardė kamuolį“, tyrėjai galėtų naudoti šį metodą. generuoti tokius sakinius kaip „mergina spardė kamuolį“, „gydytojas spardė kamuolį“, „mokytojas spardė kamuolį“, kurie gali tapti treniruočių duomenimis.

„Idėja yra naudoti šiuos sintetinius pavyzdžius, kad iš esmės būtų sukurta apytikslė sistemos versija, kad galėtume pasinaudokite nedideliu realių duomenų kiekiu, kurį turime, ir suderinkite juos tiksliai ten, kur norime“, – sakė Felkneris.

Neatidėliotinas humanitarinis poveikis

Darbas su itin mažai išteklių reikalaujančiu vertimu į kalbą nėra lengvas ir gali būti varginantis kartų, pripažįsta Felkneris. Tačiau iššūkis ir potencialas pakeisti gyvenimus skatina ją sėkmingai.

Kitais metais ji planuoja išvykti į ekskursiją ir stebėti, kaip pasienyje dirba teisinės pagalbos organizacijos. kur jos sistema galėtų tilpti į jų darbo eigą. Ji taip pat dirba su sistemos demonstracine svetaine, kurią tikisi pristatyti 2023, o kai ji bus sukurta, ji tikisi, kad vieną dieną ji galės taikyti kitoms čiabuvių kalboms.

„Laipydami į kalnus daug išteklių kalbomis, jūsų „Alexa“, „Google Home“ ar „Siri“ gali jus geriau suprasti, tačiau tai nekeičia taip pat“, – sakė Felkneris. „Aš atlieku šį darbą, nes jis turi tiesioginį humanitarinį poveikį. Kaip kažkada sakė JFK, renkamės keliauti į Mėnulį ne todėl, kad tai lengva, o todėl, kad sunku. Dažnai manau, kad dalykai, kuriuos verta daryti, yra sunkūs “.

Citata2020 : Mašininio vertimo įrankio, skirto padėti prieglobsčio prašytojams pasienyje, kūrimas (2022, rugpjūčio mėn. ) gauta 15 rugpjūčio mėn. 2022 iš https://techxplore.com/news/2022–machine-tool-aylum-seekers-border.html

Šis dokumentas yra saugomas autorių teisių. Neskaitant bet kokių sąžiningų santykių privačių studijų ar mokslinių tyrimų tikslais jokia dalis negali būti atgaminta be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.

Nuo iliuzijos iki realybės: kaip dirbtinis intelektas keičia žaidimų industriją

Komisija nubrėžia kelią Europos lyderystei dirbtinio intelekto srityje – pristatytas ambicingas „Dirbtinio intelekto žemyno veiksmų planas“

Premjerė: neabejoju, kad Ukrainoje galiausiai neliks nė vieno okupanto – kaip prieš 29-erius metus jų nebeliko Lietuvoje

Parašykite komentarą Atšaukti atsakymą

Naujausi komentarai

Tema

Partneriai

Naujienos

Kategorijos

Naujausi komentarai

Sveiki sugrįžę!

Retrieve your password