Atsirado naujų nuogąstavimų dėl mokymo medžiagos, naudojamos kai kuriems iš didžiausių ir galingiausių dirbtinio intelekto modelių, po kelių tyrimų atskleidė fašistinius, piratinius ir kenkėjiškus šaltinius, iš kurių renkami duomenys.
Vienas iš tokių duomenų rinkinių yra „Colossal Clean Crawled Corpus“ arba C4, kurį „Google“ surinko iš daugiau nei 15 mln. svetainių ir naudojo tiek paieškos variklio „LaMDA AI“, tiek „Meta“ GPT konkurentui LLaMA mokyti.
Duomenų rinkinys yra viešas, tačiau dėl jo masto sunku ištirti turinį: tariamai tai yra „švari“ platesnio duomenų rinkinio „Common Crawl“ versija su „triukšmingu“ turiniu, įžeidžiančia kalba ir rasistiniais užkalbėjimais, pašalintais iš medžiagos.
Tačiau „Washington Post“ atliktas tyrimas atskleidžia, kad C4 „švarumas“ yra tik oda. Nors jis remiasi tokiomis svetainėmis kaip „Guardian“, kuri sudaro 0,05 % viso duomenų rinkinio, ir „Wikipedia“, taip pat didelės duomenų bazės, pvz., „Google Patents“ ir mokslinių žurnalų centras PLOS, jame taip pat yra mažiau patikimų svetainių.
Baltųjų nacionalistų svetainė VDARE yra duomenų bazėje, viena iš 1000 didžiausių svetainių, kaip ir kraštutinių dešiniųjų naujienų svetainė Breitbart. Rusijos valstybės remiama propagandos svetainė RT yra viena iš šimto didžiausių mokymo duomenų C4 korpusui tiekėjų.
Nedaug svetainių davė aiškų sutikimą, kad jos būtų įtrauktos, nors „Common Crawl“, ne pelno organizacija, surinkusi nuskaitytus duomenis, teigia, kad gerbia prašymus palikti juos paieškoje. Tačiau kai kurie peržengia sąžiningo naudojimo ribas: b-ok.org, anksčiau žinoma kaip Bookzz, buvo didžiulė piratinių el. knygų saugykla, kol 2022 m. ją konfiskavo FTB. Nepaisant to, svetainės turinys išlieka C4 duomenų bazė.
Tokios didžiulės duomenų kolekcijos yra svarbios kuriant dirbtinį intelektą, nes dideliems kalbos modeliams (LLM), kuriais grindžiami tokie įrankiai kaip „ChatGPT“, reikia didžiulių duomenų rinkinių, kad būtų galima tobulinti.
Surinkti šimtus gigabaitų teksto, reikalingo tokiam modeliui parengti iš aiškiai licencijuotų šaltinių, būtų sudėtinga užduotis, todėl daugelis dirbtinio intelekto tyrinėtojų nusprendžia prašyti atleidimo, o ne leidimo, teigdami, kad jų kūriniams taikoma „sąžiningo naudojimo“ apsauga nuo autorių teisių. .
Kai kurie netgi nusprendžia atsisakyti „Google“ taikomo „valymo“ savo duomenų rinkiniui, kad galėtų pasiekti dar daugiau duomenų, iš kurių jų sistemos galėtų mokytis. Londone įsikūrusi „Stability AI“ trečiadienį išleido savo naująjį LLM „StableLM“, apmokytą „Pile“ – 850 GB duomenų rinkinį, apimantį visą neišvalytą „Common Crawl“ duomenų bazę, taip pat 2 mln. piratų el. knygų iš „BitTorrent“ svetainės „Bibliotik“ ir 100 GB duomenų. iš kodavimo svetainės „GitHub“ ir daugiau ezoterinių šaltinių, tokių kaip kiekvienas dabar jau nebeegzistuojančios energetikos bendrovės „Enron“ išsiųstas vidinis el. laiškas ir visa Europos Parlamento veikla.
„Pile“ viešai rengia anoniminių „duomenų entuziastų“ grupė, vadinama „Akiu“, kurios panaikinimo dėl autorių teisių politika susieta su vaizdo įrašu, kuriame vaizduojamas apsirengusių moterų choras, dainuodamas besimasturbuojantis įsivaizduojamą penį.
„Stability“ naudojama versija, kuri šiuo metu yra privati, yra „tris kartus didesnė“, teigia bendrovė. Ji nepaskelbė daugiau informacijos apie papildomą šio duomenų rinkinio turinį, kuris, kaip teigiama, „suteikia StableLM stebėtinai aukštą našumą atliekant pokalbio ir kodavimo užduotis“.
„Siekdami skatinti skaidrumą ir pasitikėjimą, savo modelius naudojame atvirojo kodo šaltiniu“, – sakė „Stability“. „Mokslininkai gali „pažvelgti po gaubtu“, kad patikrintų veiklos rezultatus, dirbtų su interpretavimo metodais, nustatytų galimą riziką ir padėtų kurti apsaugos priemones.
„Viešojo ir privataus sektorių organizacijos gali pritaikyti („patobulinti“) šiuos atvirojo kodo modelius savo programoms, nesidalindamos savo jautriais duomenimis arba neatsisakydamos savo AI galimybių kontrolės.
„Google“ buvo kreiptasi dėl komentaro.