Kokybinė analizė, rodanti duomenų įvairovę skirtinguose pajamų kvartiliuose penkiomis atsitiktinėmis temomis: „tualetinis popierius“, „gauk vandens“, „šviesos šaltinis“, „šaldytuvas“. CLIP našumui ta pačia tema įtakos turi nepaprastai įvairi tos pačios temos subjektų išvaizda, kuri dažnai koreliuoja su pajamomis. Mūsų analizė atkreipia dėmesį į tai, kaip įvairūs objektai ir veiksmai atsiranda mūsų kasdieniame gyvenime, ir ragina ateityje į tai atsižvelgti kuriant modelius ir duomenų rinkinius. Geriausiai žiūrima spalvotai. Kreditas: arXiv (2023). DOI: 10.48550/arxiv.2311.05746 Atliekant tyrimą, kuriame buvo vertinamas OpenAI CLIP, modelio, kuris sujungia tekstą ir vaizdus ir veikia populiaraus DALL-E vaizdų generatoriaus užkulisiuose, šališkumą, Mičigano universiteto mokslininkai nustatė, kad CLIP prastai veikia vaizduose, kuriuose vaizduojami mažas pajamas gaunantys ir ne. Vakarų gyvenimo būdas.
„Tuo metu, kai visame pasaulyje diegiami dirbtinio intelekto įrankiai, labai svarbu, kad visi būtų atstovaujami šiuose įrankiuose. Tačiau matome, kad didelė dalis gyventojų neatsispindi šiose programose – nenuostabu, kad tie, kurių socialinės pajamos yra mažiausios. . Tai gali greitai sukelti dar didesnes nelygybės spragas“, – sakė projektą inicijavusi ir patarusi Janice M. Jenkins kolegiali kompiuterių mokslo ir inžinerijos profesorė Rada Mihalcea.
DI modeliai, tokie kaip CLIP, veikia kaip pagrindiniai modeliai arba modeliai, parengti naudojant daug nepažymėtų duomenų, kuriuos galima pritaikyti daugeliui programų. Kai dirbtinio intelekto modeliai mokomi naudojant duomenis, atspindinčius vienpusį pasaulio vaizdą, šis šališkumas gali plisti į paskesnes programas ir įrankius, kurie priklauso nuo AI.
„Jei programinė įranga naudotų CLIP vaizdams peržiūrėti, ji galėtų pašalinti vaizdus iš mažesnes pajamas gaunančių ar mažumų grupių, o ne tikrai klaidingai pažymėtus vaizdus. Tai galėtų panaikinti visą įvairovę, kurią duomenų bazės kuratorius sunkiai dirbo, kad įtrauktų”, – sakė Joan Nwatu. informatikos ir inžinerijos doktorantas.
Nwatu vadovavo tyrėjų grupei kartu su to paties skyriaus tyrėja Oana Ignat. Gruodžio 8 d. Singapūre vykusioje konferencijoje Empirical Methods in Natural Language Processing jie buvo bendraautorius. Straipsnis taip pat paskelbtas arXiv išankstinio spausdinimo serveris.
Tyrėjai įvertino CLIP našumą naudodami Dollar Street, visame pasaulyje įvairų vaizdo duomenų rinkinį, kurį sukūrė Gapminder Foundation. Dollar gatvėje yra daugiau nei 38 000 vaizdų, surinktų iš įvairių pajamų namų ūkių visoje Afrikoje, Amerikoje, Azijoje ir Europoje. Duomenų rinkinyje nurodytos mėnesio pajamos svyruoja nuo 26 USD iki beveik 20 000 USD. Vaizduose užfiksuoti kasdieniai daiktai ir rankiniu būdu anotuojami viena ar keliomis kontekstinėmis temomis, pvz., „virtuvė“ arba „lova“.
CLIP suporuoja tekstą ir vaizdus, sukurdamas balą, kuris turi parodyti, kaip gerai sutampa vaizdas ir tekstas. Tada šis rezultatas gali būti įtrauktas į paskesnes programas, skirtas tolesniam apdorojimui, pavyzdžiui, vaizdų žymėjimui ir ženklinimui. OpenAI DALL-E veikimas labai priklauso nuo CLIP, kuris buvo naudojamas modelio našumui įvertinti ir sukurti DALL-E apmokytų vaizdų antraščių duomenų bazę.
Tyrėjai įvertino CLIP šališkumą, pirmiausia įvertindami Dollar Street duomenų rinkinio vaizdų ir rankiniu būdu anotuoto teksto atitiktį CLIP, tada išmatuodami koreliaciją tarp CLIP balo ir namų ūkio pajamų.
„Mes nustatėme, kad dauguma vaizdų iš didesnes pajamas gaunančių namų ūkių visada turėjo aukštesnius CLIP balus, palyginti su vaizdais iš mažesnes pajamas gaunančių namų ūkių“, – sakė Nwatu.
Pavyzdžiui, temos „šviesos šaltinis“ CLIP balai paprastai yra didesni už turtingesnių namų ūkių elektros lempas, palyginti su žibalinėmis lempomis iš skurdesnių namų ūkių.
CLIP taip pat parodė geografinį šališkumą, nes dauguma žemiausius balus surinkusių šalių buvo iš mažas pajamas gaunančių Afrikos šalių. Šis šališkumas gali panaikinti didelių vaizdų duomenų rinkinių įvairovę ir sumažinti mažas pajamas gaunančių ne Vakarų namų ūkių skaičių programose, kurios remiasi CLIP.
„Daugelis AI modelių siekia „bendro supratimo” naudojant Vakarų šalių anglų kalbos duomenis. Tačiau mūsų tyrimai rodo, kad šis metodas lemia didelį našumo skirtumą tarp demografinių rodiklių”, – sakė Ignatas.
„Šis atotrūkis svarbus tuo, kad demografiniai veiksniai formuoja mūsų tapatybę ir tiesiogiai veikia modelio veiksmingumą realiame pasaulyje. Šių veiksnių nepaisymas gali padidinti diskriminaciją ir skurdą. Mūsų tyrimais siekiama užpildyti šią spragą ir atverti kelią įtraukesniems ir patikimesniems modeliams. “
Tyrėjai siūlo keletą veiksmingų veiksmų AI kūrėjams, kad sukurtų teisingesnius AI modelius:
- Investuokite į geografiškai skirtingus duomenų rinkinius, kad padėtumėte dirbtinio intelekto įrankiams išmokti įvairesnių žinių ir perspektyvų.
- Apibrėžkite vertinimo metriką, kuri atspindi visus, atsižvelgdami į vietą ir pajamas.
- Dokumentuokite demografinius duomenis, kuriais remiantis mokomi dirbtinio intelekto modeliai.
„Visuomenė turėtų žinoti, apie ką dirbtinis intelektas buvo apmokytas, kad galėtų priimti pagrįstus sprendimus naudodamasis įrankiu“, – sakė Nwatu.
Daugiau informacijos: Joan Nwatu ir kt., „Skaitmeninės atskirties įveikimas: našumo skirtumai tarp socialinių ir ekonominių veiksnių vizijos ir kalbos modeliuose“, arXiv (2023). DOI: 10.48550/arxiv.2311.05746
Žurnalo informacija: arXiv
Citata: Didelio vaizdo teksto AI modelio šališkumas skatina turtingesnes, vakarietiškas perspektyvas: tyrimas (2023 m. gruodžio 8 d.), gautas 2023 m. gruodžio 8 d. iš https://techxplore.com/news/2023-12-biases-large-image-text-ai -favor.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.