Trumpas pradinių žodžių sąrašas (raudonas, kairėje) išplečiamas į ilgesnį žodžių sąrašą (žalias, dešinėje), susiejant pradinius žodžius į koleksifikacijos tinklą ir nuskaitant gretimus mazgus. Kreditas: Kompleksiškumo mokslo centras Žodžių sąrašai yra daugelio tyrimų daugelyje sričių pagrindas. „Complexity Science Hub“ mokslininkai dabar sukūrė algoritmą, kuris gali būti taikomas skirtingoms kalboms ir gali žymiai geriau nei kiti išplėsti žodžių sąrašus.
Daugelis projektų prasideda nuo žodžių sąrašo kūrimo ne tik įmonėse, kai kuriami minčių žemėlapiai, bet ir visose tyrimų srityse. Įsivaizduokite, kad norite sužinoti, kuriomis dienomis žmonės būna ypač geros nuotaikos, analizuodami „Twitter“ įrašus. Nepakaktų vien ieškoti žodžio „laimingas“.
Vietoj to turėtumėte naudoti algoritmą, kuris aptinka visus tviterius, rodančius, kad kažkas yra laimingas. „Taigi pirmas žingsnis yra sudaryti visų žodžių, kurie nurodo būtent tai, sąrašą. Visas tyrimas stovi arba atsilieka tai darant”, – aiškina Anna Di Natale, Vienos sudėtingumo mokslo centro tyrėja. Bet kaip sudaryti kuo tikslesnius, išsamesnius žodžių sąrašus?
Problema, kuri rūpi daugeliui
Ši plačiai paplitusi problema rūpi ne tik nuomonių tyrinėtojams, norintiems išsiaiškinti, kaip politikų pasisakymus priima visuomenė. Įmonės taip pat nori išsiaiškinti, kaip jų produktai yra suvokiami per sentimentų analizę.
Siekdama pagerinti situaciją, Di Natale sukūrė naują metodą, pavadintą LEXpander, kuris pranoksta ankstesnius algoritmus dviem skirtingomis kalbomis – vokiečių ir anglų. Be to, pirmą kartą ji sukūrė būdą, kaip iš viso galima palyginti skirtingus įrankius.
Patobulintas našumas
Palyginti su keturiais kitais žodžių sąrašo išplėtimo algoritmais (WordNet, Empath 2.0, FastText ir GloVe), LEXpander veikė žymiai geriau, ypač vokiečių kalba. Pavyzdžiui, mokslininkai nustatė, kad LEXpander teisingai atspėja 43% žodžių, kai plečia anglų kalbos žodžių sąrašą, kad gautų teigiamą reikšmę. Palyginimui, esamas populiarus modelis „FastText“ yra teisingas tik 28% atvejų.
Nepriklausomybė nuo pačios kalbos
Priežastis ta, kad šis įrankis veikia nepriklausomai nuo kalbos. Ji remiasi ne viena kalba, o vadinamuoju koleksifikacijos tinklu. Ši pripažinta kalbinė samprata remiasi homonimais ir polisemijomis, pavieniais žodžiais, turinčiais dvi ar daugiau skirtingų reikšmių. Pavyzdžiui: senovės graikų žodis φάρμακον (farmakonas) gali reikšti vaistus arba nuodus. Tai du skirtingi dalykai, bet temiškai artimi. Tačiau yra ir kitų, kurie nesiūlo giminystės, pavyzdžiui, „bankas“ kaip finansų įstaiga arba žemė prie upės.
„Jei renkate jas daugeliu kalbų, o čia mes išanalizavome apie 19 skirtingų kalbų, galite pamatyti ryšius tarp jų“, – sako Di Natale. Tinklas susidaro, kai šios koleksifikacijos vyksta keliomis kalbomis skirtingose kalbų šeimose, sukuriant ryšius.
Ši nepriklausomybė nuo pačios kalbos leidžia LEXpander pasiekti geresnių rezultatų skirtingomis kalbomis. „Yra daug metodų, sukurtų anglų kalbai. Jie veikia labai gerai ir greitai, ir visi juos naudoja. Bandymas juos pritaikyti kitoms kalboms veikia, bet ne taip gerai, kaip būtų pradėjęs kurti metodą vokiečių ar italų kalboms.” Di Natale paaiškina.
Svarbu naujoms temoms, tokioms kaip COVID
Daugeliui temų jau yra geri žodžių sąrašai. Tačiau naujoms temoms, tokioms kaip COVID, reikia sukurti naujas. Iki šiol jie dažniausiai buvo kuriami rankomis per kolegų protų šturmą, o į pagalbą pasitelktos kelios priemonės. Tačiau iki šiol nebuvo kaip jų palyginti.
Anna Di Natale ir jos komanda dabar sukūrė šią galimybę ir taip pat sukūrė naują įrankį, kuris veikia geriau nei kiti. Tai gali būti svarbus daugelio būsimų įvairių sričių mokslinių tyrimų projektų kertinis akmuo.
Daugiau informacijos: Anna Di Natale ir kt., LEXpander: Koleksifikacijos tinklų taikymas automatizuotai leksikos plėtrai, Elgesio tyrimo metodai (2023). DOI: 10.3758/s13428-023-02063-y
Citata: naujas ir geresnis žodžių sąrašų kūrimo būdas (2023 m. kovo 13 d.), gautas 2023 m. kovo 13 d. iš https://techxplore.com/news/2023-03-word.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.