Informatikos mokslų daktaras Weicheng Ma yra tyrimo bendraautoris. Kreditas: Katie Lenhart Kai dirbtinio intelekto modeliai sukaupia daugiau nei šimtus gigabaitų mokymo duomenų, kad išmoktų kalbos niuansus, jie taip pat įsisavina tekstuose įpintą šališkumą.
Dartmuto kompiuterių mokslo tyrėjai sugalvoja būdus, kaip pritaikyti modelio dalis, kurios koduoja šiuos šališkumus, atverdami kelią jas sušvelninti, jei ne visiškai pašalinti.
Neseniai paskelbtame dokumente 2023 m. konferencijos apie natūralios kalbos apdorojimo empirinius metodus medžiaga, bendraautoriai Weicheng Ma, informatikos mokslų daktaras. Guarini absolventų ir aukštesniųjų studijų mokyklos kandidatas ir kompiuterių mokslų docentas Soroushas Vosoughi nagrinėja, kaip stereotipai užkoduojami iš anksto parengtuose didelių kalbų modeliuose.
Didelis kalbos modelis arba neuroninis tinklas yra gilaus mokymosi algoritmas, skirtas apdoroti, suprasti ir generuoti tekstą ir kitą turinį, kai mokomasi naudojant didžiulius duomenų rinkinius.
Iš anksto apmokyti modeliai turi šališkumą, pavyzdžiui, stereotipus, sako Vosoughi. Paprastai jie gali būti teigiami (pavyzdžiui, rodo, kad tam tikra grupė turi gerus tam tikrus įgūdžius) arba neigiami (darant prielaidą, kad kažkas užsiima tam tikra profesija pagal savo lytį).
Mašininio mokymosi modeliai yra pasirengę įvairiais būdais įsiskverbti į kasdienį gyvenimą. Jie gali padėti samdomiems vadovams išnagrinėti daugybę gyvenimo aprašymų, palengvinti greitesnį banko paskolų patvirtinimą arba atmetimą ir patarti priimant sprendimus dėl lygtinio paleidimo.
Tačiau integruoti stereotipai, pagrįsti demografiniais rodikliais, sukeltų nesąžiningų ir nepageidaujamų pasekmių. Siekdami sušvelninti tokį poveikį, „klausiame, ar galime ką nors padaryti dėl stereotipų net ir po to, kai modelis buvo apmokytas“, – sako Vosoughi.
Tyrėjai pradėjo nuo hipotezės, kad stereotipai, kaip ir kiti kalbiniai bruožai ir modeliai, yra užkoduoti tam tikrose neuroninio tinklo modelio dalyse, vadinamose „dėmesio galvutėmis“. Jie yra panašūs į neuronų grupę; jie leidžia mašininio mokymosi programai įsiminti kelis žodžius, pateiktus kaip įvestis, be kitų funkcijų, kai kurios iš jų vis dar nėra visiškai suprantamos.
Ma, Vosoughi ir jų bendradarbiai sukūrė duomenų rinkinį, kuriame gausu stereotipų, ir naudojo jį pakartotinai suderindami 60 skirtingų iš anksto paruoštų didelės kalbos modelių, įskaitant BERT ir T5. Sustiprindamas modelio stereotipus, duomenų rinkinys veikė kaip detektorius, atkreipdamas dėmesį į dėmesio galvutes, kurios padarė daug pastangų koduojant šiuos paklaidas.
Savo darbe tyrėjai rodo, kad blogiausių nusikaltėlių genėjimas žymiai sumažina stereotipus dideliuose kalbų modeliuose, nepažeidžiant jų kalbinių gebėjimų.
„Mūsų išvados sugriauna tradicinį požiūrį, kad dirbtinio intelekto ir natūralios kalbos apdorojimo pažanga reikalauja išsamaus mokymo arba sudėtingų algoritminių intervencijų“, – sako Ma. Kadangi technika iš esmės nėra būdinga kalbai ar modeliui, ji būtų plačiai taikoma, pasak Ma.
Be to, priduria Vosoughi, kad duomenų rinkinį galima patobulinti, kad būtų atskleisti kai kurie stereotipai, bet kiti liktų netrikdomi – „tai nėra vienas dydis, tinkantis visiems“.
Taigi medicininės diagnozės modelyje, kuriame amžiaus ar lyties skirtumai gali būti svarbūs paciento vertinimui, būtų naudojama kitokia duomenų rinkinio versija nei ta, kuri naudojama šalinant modelio, kuris atrenka potencialius kandidatus į darbą, šališkumą.
Ši technika veikia tik tada, kai yra prieiga prie visiškai parengto modelio ir nebus taikoma juodųjų dėžių modeliams, pvz., „OpenAI“ pokalbių robotui „ChatGPT“, kurio vidinis veikimas yra nematomas vartotojams ir tyrėjams.
Dabartinis požiūris į juodųjų dėžių modelius yra artimiausias jų žingsnis, sako Ma.
Daugiau informacijos: Weicheng Ma ir kt., Stereotipų iššifravimas iš anksto apmokytuose kalbos modeliuose, 2023 m. konferencijos apie natūralios kalbos apdorojimo empirinius metodus medžiaga (2023). DOI: 10.18653/v1/2023.emnlp-main.697
Citata: Nulinis didelių kalbų modelių šališkumo ištakų nustatymas (2024 m. sausio 15 d.), gautas 2024 m. sausio 15 d. iš https://techxplore.com/news/2024-01-zeroing-bias-large-language.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.