Zadie Smith, Stephenas Kingas, Rachel Cusk ir Elena Ferrante yra tarp tūkstančių autorių, kurių piratiniai darbai buvo panaudoti dirbtinio intelekto įrankiams lavinti, atskleidė „The Atlantic“ istorija.
Remiantis „Books3“ – duomenų rinkinio, kurį įmonės panaudojo kurdamos savo dirbtinio intelekto įrankius, analizė, daugiau nei 170 000 pavadinimų buvo įtraukta į modelius, kuriuos valdo bendrovės, įskaitant „Meta“ ir „Bloomberg“.
„Books3“ buvo naudojamas apmokyti „Meta“ LLaMA, vieną iš daugelio didelių kalbų modelių, iš kurių geriausiai žinomas yra „OpenAI“ „ChatGPT“, kuris gali generuoti turinį pagal pavyzdiniuose tekstuose nustatytus modelius. Duomenų rinkinys taip pat buvo naudojamas mokant „Bloomberg“ „BloombergGPT“, „EleutherAI“ GPT-J ir „tikėtina“, kad jis buvo naudojamas kituose AI modeliuose.
Knygose3 esančių pavadinimų maždaug trečdalis grožinės literatūros ir du trečdaliai negrožinės literatūros, o didžioji dalis buvo išleista per pastaruosius du dešimtmečius. Kartu su Smitho, Kingo, Cusko ir Ferrante raštais autorių teisių saugomi kūriniai duomenų rinkinyje apima 33 Margaret Atwood knygas, mažiausiai devynias Haruki Murakami, devynias su varpeliais, septynias Jonathaną Franzeną, penkias Jennifer Egan ir penkias Davido Granno knygas.
Taip pat yra George’o Saunderso, Junot Díaz, Michaelo Pollano, Rebeccos Solnit ir Jono Krakauerio knygose, taip pat 102 scientologijos įkūrėjo L Rono Hubbardo romanai ir 90 pastoriaus Johno MacArthuro knygų.
Pavadinimai apima didelius ir mažus leidėjus, įskaitant daugiau nei 30 000 leidėjų „Penguin Random House“, 14 000 „HarperCollins“, 7 000 „Macmillan“, 1 800 „Oxford University Press“ ir 600 „Verso“.
Tai įvyko po to, kai praėjusį mėnesį trys rašytojai – Sarah Silverman, Richardas Kadrey ir Christopheris Goldenas – iškėlė ieškinį, kuriame teigiama, kad jų autorių teisių saugomi kūriniai „buvo nukopijuoti ir įsisavinti mokant“ Metos LLaMA. Analizė atskleidė, kad trijų ieškovų raštai iš tiesų yra knygos3 dalis.
„OpenAI“, AI pokalbių roboto „ChatGPT“ įmonė, taip pat buvo apkaltinta savo modelio mokymu apie autorių teisių saugomus darbus. OpenAI mokymo duomenų šaltiniai slypi 2020 m. bendrovės išleistame dokumente, kuriame minimi du „interneto knygų korpusai“, kurių vienas vadinamas Books2 ir, kaip manoma, turi beveik 300 000 pavadinimų. Birželio mėnesio ieškinyje teigiama, kad vienintelės svetainės, siūlančios tiek daug medžiagos, yra „šešėlinės bibliotekos“, pvz., „Library Genesis“ (LibGen) ir „Z-Library“, kuriose knygos gali būti apsaugotos masiškai per torrent sistemas.
Shawnas Presseris, nepriklausomas dirbtinio intelekto kūrėjas, iš pradžių sukūręs „Books3“, sakė, kad nors ir supranta autorių susirūpinimą, jis sukūrė duomenų bazę, kad kiekvienas galėtų kurti generatyvius AI įrankius, ir nerimauja dėl rizikos, kylančios dėl didelių įmonių, kontroliuojančių technologiją.
praleisti ankstesnę naujienlaiškio reklamąpo naujienlaiškio reklamavimo
Nors „Meta“ atstovas atsisakė komentuoti, kaip įmonė „The Atlantic“ naudoja „Books3“, „Bloomberg“ atstovas patvirtino, kad bendrovė naudojo duomenų rinkinį. „Neįtrauksime Books3 duomenų rinkinio tarp duomenų šaltinių, naudojamų būsimoms BloombergGPT versijoms mokyti“, – pridūrė jie.