IGLUE užduočių, apimančių pagrįstos natūralios kalbos išvedžiojimą, vizualų atsakymą į klausimus, pagrįstą samprotavimą ir įvairių modalų paiešką, apžvalga. Kiekviena užduotis susieta su įvesties ir išvesties pavyzdžiu (vertimai į anglų kalbą apačioje). Kreditas: Trisdešimt devintosios tarptautinės mašininio mokymosi konferencijos medžiaga (99). DOI: .48550/arXiv.2201.2201 Tiek daug kalbų; ir vis dėlto anglų kalbai leidžiama beveik visiškas dominavimas, kai kalbama apie AI technologiją mašinų mokymasis (ML). Pavyzdžiui, jei mokslininkai moko kompiuterį suvokti atsitiktinio teksto turinį, mokymo pavyzdžiai paprastai bus anglų kalba.
„Tai sukelia didelį netyčinį kultūrinį šališkumą. Net ir po ilgų treniruočių, mašina niekada nebus patyrusi bulių sutramdymo. Indija, kinų kepimas karštuose puoduose ar kiti reiškiniai, kurie yra žinomi milijonams žmonių, bet tiesiog atsiduria už gimtosios anglų kalbos horizonto“, – sako Ph. tyrėjas Emanuele Bugliarello, Kopenhagos universiteto Kompiuterių mokslų katedra (DIKU). iš daugelio šalių sukūrė naują priemonę, skatinančią įvairesnį požiūrį. IGLUE (Image-Grounded Language Understanding Evaluation), kaip jie pavadino įrankį, yra etalonas, leidžiantis įvertinti ML sprendimo efektyvumą 10 kalbomis (o ne tik anglų).
Jų mokslinis straipsnis, pristatantis IGLUE, buvo priimtas publikavimui būsimoje Trisdešimt devintoje tarptautinėje mašininio mokymosi konferencijoje , vienoje geriausių šios srities konferencijų Savanoriai pateikė kultūrai būdingų vaizdų
Kaip naujas etalonas gali pakeisti?
„Kai ML tyrimų komandos kuria naujus sprendimus, jos visada yra labai konkurencingos. Jei kitai grupei pavyko išspręsti duotą ML užduotį su 20 procentų tikslumą, bandysite gauti 99 procentus ir tt. Štai kas skatina laukas į priekį.Tačiau minusas yra tas, kad jei d jei neturite tinkamo tam tikros funkcijos etalono, jai nebus teikiama pirmenybė. Tai buvo daugiarūšio ML atvejis, o IGLUE yra mūsų bandymas pakeisti sceną“, – sako Bugliarello. Bazinis mokymas ant vaizdų yra standartinis ML. Tačiau vaizdai paprastai yra „pažymėti etiketėmis“, o tai reiškia, kad teksto fragmentai pridedami prie kiekvieno vaizdo, padedantys mokymosi procesui mašinoje. Nors etiketės paprastai yra anglų kalba, IGLUE viršeliai 20 tipologiškai įvairios kalbos, apimančios kalbų šeimos, 9 rašmenys ir 3 geografinės makrosritys.
Dalis vaizdų IGLUE yra būdingi kultūrai. Šie vaizdai buvo gauti per pašto kampaniją. Tyrėjai paprašė savanorių įvairiose geografinėse šalyse pateikti atvaizdus ir tekstus jų natūralia kalba ir, pageidautina, apie dalykus, kurie buvo svarbūs toje šalyje. Priblokštas teigiamų reakcijų
Dėl dabartinės daugiarūšės ML nebuvimo h Bugliarello paaiškina:
„Tarkime, kad turite alergiją maistui ir turite programą, kuri gali pasakyti jei valgyje yra probleminių ingredientų. Atsidūręs restorane Kinijoje supranti, kad meniu yra kinų kalba, bet yra nuotraukų. Jei jūsų programa yra gera, ji gali paversti paveikslėlį receptu, bet tik tuo atveju, jei treniruočių metu mašina buvo veikiama kiniškų pavyzdžių.“
Kitaip tariant, angliškai nekalbantys asmenys gauna prastesnę ML pagrįstų sprendimų versiją:
„The performance daugelio geriausių ML sprendimų iš karto sumažės, nes jie bus veikiami angliškai nekalbančių šalių duomenų. Pažymėtina, kad ML sprendimai praleidžia koncepcijas ir idėjas, kurios nesusiformavo Europoje ar Šiaurės Amerikoje. Į tai turi atkreipti dėmesį ML tyrimų bendruomenė“, – sako Bugliarello.
Laimei, daugelis kolegų pamatė šviesą, Bugliarello pažymi:
„Viskas prasidėjo prieš keletą metų, kai rašėme pranešimą EMNLP konferencijai (Empirical Methods in Natural). Kalbos apdorojimas). Mes tiesiog norėjome atkreipti dėmesį į problemą, bet netrukus buvome priblokšti susidomėjimo, ir mūsų nuostabai mūsų indėlis buvo išrinktas kaip geriausias ilgas popierius. Žmonės aiškiai matė problemą, ir mes buvome paskatinti daryti daugiau.“
Gali padėti silpnaregiams
Kartais Bugliarello pripažįsta:
„Kaip valstybinis universitetas, turime ribotus išteklius. Negalime atlikti visų šios didžiulės užduoties aspektų. Vis dėlto matome, kad prisijungia ir kitos grupės. Taip pat jaučiame susidomėjimą iš didžiųjų technologijų korporacijų. Jie aktyviai užsiima ML ir pradeda suprasti, kaip anglų kalbos šališkumas gali būti problema. Akivaizdu, kad jie nėra patenkinti, kad jų sprendimų našumas labai sumažėja, kai jie taikomi ne anglų kalbos kontekste.” Nepaisant to, teigiamų pokyčių, Bugliarello neleidžia sau nuvilti. Paklaustas, kiek esame arti nešališko mašininio mokymosi, jis atsako: „O, mes labai toli.”
Vis dėlto tai ne tik apie kultūrinę lygybę:
„IGLUE sukurta metodika gali būti pritaikyta įvairiems tikslams. Pavyzdžiui, tikimės patobulinti sprendimus silpnaregiams. Egzistuoja įrankiai, padedantys silpnaregiams sekti filmo siužetą ar kitą vaizdinės komunikacijos būdą. Šios priemonės šiuo metu toli gražu nėra tobulos, ir labai norėčiau, kad galėčiau jas patobulinti. Tačiau tai yra šiek tiek tolėliau“, – sako Bugliarello
Daugiau informacijos: 2201 Emanuele Bugliarello et al, IGLUE: Mokymosi perkeliant metodus, užduotis ir kalbas etalonas, Trisdešimt devintosios tarptautinės mašininio mokymosi konferencijos medžiaga ( ). DOI: .48550/arXiv.2201.800 Citata2201 : anglų kalbos šališkumas kompiuterijoje: vaizdai į gelbėjimą (2022, rugsėjo 6 d.) gauti rugsėjo 7 d. 2022 iš https://techxplore.com/news/99–english-bias-images.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.

