Kreditas: Unsplash/CC0 viešasis domenas Mokiniai gali norėti gerai pagalvoti prieš naudodami pokalbių robotą, kad atliktų kitą užduotį. Pasak Penn State vadovaujamos tyrimų grupės, atlikusios pirmąjį tyrimą, skirtą tiesiogiai išnagrinėti šį reiškinį, kalbos modeliai, generuojantys tekstą, reaguojant į vartotojo raginimus, turinį nuplagijuoja daugiau nei vienu būdu.
„Plagiatas būna įvairių skonių“, – sakė Penn State informacijos mokslų ir technologijų profesorius Dongwonas Lee. „Norėjome išsiaiškinti, ar kalbiniai modeliai ne tik kopijuoja ir įklijuoja, bet ir patys to nesuvokdami naudojasi sudėtingesnėmis plagiato formomis.
Tyrėjai daugiausia dėmesio skyrė trijų plagiato formų nustatymui: pažodžiui arba tiesioginiam turinio kopijavimui ir įklijavimui; perfrazuoti arba perfrazuoti ir pertvarkyti turinį nenurodant pirminio šaltinio; ir idėja, arba pagrindinės minties iš teksto panaudojimas be tinkamo priskyrimo. Jie sukonstravo automatizuoto plagiato aptikimo vamzdyną ir išbandė jį su OpenAI GPT-2, nes kalbos modelio mokymo duomenys yra prieinami internete, todėl mokslininkai gali palyginti sugeneruotus tekstus su 8 milijonais dokumentų, naudojamų iš anksto paruošti GPT-2.
Mokslininkai panaudojo 210 000 sugeneruotų tekstų, kad patikrintų, ar nėra plagijavimo iš anksto parengtuose kalbos modeliuose ir patobulintuose kalbos modeliuose arba modeliuose, kurie buvo toliau mokomi siekiant sutelkti dėmesį į konkrečias temų sritis. Šiuo atveju komanda patobulino tris kalbų modelius, kad sutelktų dėmesį į mokslinius dokumentus, mokslinius straipsnius, susijusius su COVID-19, ir patentų paraiškas. Jie naudojo atvirojo kodo paieškos variklį, kad gautų 10 geriausių mokymo dokumentų, labiausiai panašių į kiekvieną sugeneruotą tekstą, ir modifikavo esamą teksto derinimo algoritmą, kad geriau aptiktų pažodinio, perfrazavimo ir idėjų plagijavimo atvejus.
Grupė nustatė, kad kalbiniai modeliai padarė visų trijų tipų plagiatą ir kad kuo didesnis duomenų rinkinys ir parametrai, naudojami modeliui mokyti, tuo dažniau pasitaiko plagiatas. Jie taip pat pažymėjo, kad patobulinti kalbos modeliai sumažino pažodinį plagiatą, bet padidino perfrazavimo ir idėjų plagiato atvejų. Be to, jie nustatė kalbos modelio atvejus, kai asmenų asmeninė informacija buvo atskleista per visas tris plagijavimo formas. Tyrėjai pristatys savo išvadas 2023 m. ACM interneto konferencijoje, kuri vyks balandžio 30–gegužės 4 d. Ostine, Teksase.
„Žmonės siekia didelių kalbų modelių, nes kuo didesnis modelis, tuo didėja kartos gebėjimai“, – sakė pagrindinis autorius Jooyoung Lee, Informacijos mokslų ir technologijų koledžo Penn State doktorantas. „Tuo pačiu metu jie kelia pavojų mokymo korpuso turinio originalumui ir kūrybiškumui. Tai svarbi išvada.”
Pasak mokslininkų, tyrimas pabrėžia, kad reikia daugiau tyrinėti teksto generatorius ir jų keliamus etinius bei filosofinius klausimus.
„Nors rezultatai gali būti patrauklūs, o kalbos modelius gali būti smagu naudoti ir jie atrodo produktyvūs atliekant tam tikras užduotis, tai nereiškia, kad jie yra praktiški“, – sakė Misisipės universiteto kompiuterių ir informacijos mokslų docentas Thai Le. kuris pradėjo dirbti prie projekto kaip doktorantas Penn State. „Praktiškai turime pasirūpinti etikos ir autorių teisių problemomis, kurias kelia teksto generatoriai.
Nors tyrimo rezultatai taikomi tik GPT-2, tyrėjų nustatytas automatinio plagiato aptikimo procesas gali būti taikomas naujesniuose kalbos modeliuose, pvz., ChatGPT, siekiant nustatyti, ar šie modeliai plagijuoja mokymo turinį ir kaip dažnai. Tačiau plagiato tikrinimas priklauso nuo to, ar kūrėjai padarys mokymo duomenis viešai prieinamus, sakė mokslininkai.
Pasak mokslininkų, dabartinis tyrimas gali padėti dirbtinio intelekto tyrėjams ateityje sukurti tvirtesnius, patikimesnius ir atsakingesnius kalbos modelius. Kol kas jie ragina asmenis būti atsargiems naudojant teksto generatorius.
„AI tyrėjai ir mokslininkai tiria, kaip kalbos modelius padaryti geresnius ir tvirtesnius, o daugelis žmonių naudoja kalbos modelius kasdieniame gyvenime įvairioms produktyvumo užduotims atlikti“, – sakė Penn State informacijos mokslų ir technologijų docentas Jinghui Chen. „Nors kalbos modelių panaudojimas kaip paieškos variklis ar dėklo perpildymas derinant kodą tikriausiai yra gerai, kitiems tikslams, kadangi kalbos modelis gali sukurti nuplagiatą turinį, tai gali turėti neigiamų pasekmių vartotojui.
Plagiato rezultatas nėra kažkas netikėto, pridūrė Dongwonas Lee.
„Kaip stochastinė papūga, mes mokėme kalbos modelius imituoti žmonių raštus, nemokydami jų tinkamai neplagijuoti“, – sakė jis. „Dabar laikas išmokyti juos taisyklingiau rašyti, o mūsų laukia ilgas kelias“.
Daugiau informacijos: Ar kalbos modeliai plagijuoja?, pike.psu.edu/publications/www23.pdf
Citata: teksto generatoriai gali plagijuoti ne tik „kopijuoti ir įklijuoti“ (2023 m. vasario 17 d.), gauta 2023 m. vasario 17 d. iš https://techxplore.com/news/2023-02-text-generators-plagiarize.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.