Kreditas: Pixabay / CC0 viešasis domenas Kuo geras AI? Pagal daugumą šiandien turimų techninių charakteristikų etalonų jis yra beveik tobulas. Tačiau tai nereiškia, kad dauguma dirbtinio intelekto įrankių veikia taip, kaip norime, sako Vanessa Parli, Stanfordo į žmogų orientuoto AI instituto tyrimų programų direktorė ir AI indekso valdymo komiteto narė.
Ji cituoja dabartinį populiarų „ChatGPT“ pavyzdį. „Buvo daug įspūdžių ir jis gana gerai atitinka kai kuriuos iš šių etalonų“, – sakė ji. „Tačiau kai iš tikrųjų naudojate įrankį, jis pateikia neteisingus atsakymus, sako tai, ko nenorime, ir vis tiek sunku su juo bendrauti.
Naujausiame AI indekse, paskelbtame balandžio 3 d., nepriklausomų tyrėjų komanda išanalizavo daugiau nei 50 matymo, kalbos, kalbos ir kt. etalonų, kad išsiaiškintų, jog dirbtinio intelekto įrankiai gali gauti itin aukštus balus atliekant daugelį šių vertinimų.
„Dauguma etalonų pasiekia tašką, kai negalime padaryti daug geresnio – 80–90 % tikslumo“, – sakė ji. „Mes tikrai turime galvoti apie tai, kaip mes, žmonės ir visuomenė, norime bendrauti su AI ir kurti naujus etalonus.
Šiame pokalbyje Parli paaiškina daugiau apie lyginamosios analizės tendencijas, kurias ji mato iš AI indekso.
Ką turi omenyje sakydamas etaloną?
Etalonas iš esmės yra AI sistemos tikslas. Tai būdas apibrėžti, ką norite, kad jūsų įrankis darytų, ir tada dirbti siekiant šio tikslo. Vienas iš pavyzdžių yra HAI bendrojo direktoriaus Fei-Fei Li „ImageNet“, daugiau nei 14 milijonų vaizdų duomenų rinkinys. Tyrėjai naudoja savo vaizdų klasifikavimo algoritmus „ImageNet“, kad galėtų išbandyti savo sistemą. Tikslas yra teisingai identifikuoti kuo daugiau vaizdų.
Ką AI indekso tyrimas nustatė dėl šių etalonų?
Peržiūrėjome kelis techninius etalonus, kurie buvo sukurti per pastaruosius keliolika metų – apie viziją, apie kalbą ir kt. – ir įvertinome naujausius rezultatus kiekvienais etaloniniais metais per metus. Taigi, ar tyrėjai sugebėjo pranokti praėjusių metų rezultatą pagal kiekvieną etaloną? Ar jie sutiko? O gal pažangos visai nebuvo? Pažiūrėjome į ImageNet, kalbos etaloną, vadinamą SUPERGlue, aparatinės įrangos etaloną, vadinamą MLPerf, ir dar daugiau; apie 50 buvo išanalizuoti ir daugiau nei 20 pateko į ataskaitą.
O ką jūs atradote savo tyrime?
Ankstesniais metais žmonės gerokai pagerino praėjusių metų naujausius rezultatus arba geriausius rezultatus. Šiais metais daugumoje gairių pastebėjome minimalią pažangą ir nusprendėme kai kurių į ataskaitą neįtraukti. Pavyzdžiui, geriausios vaizdų klasifikavimo sistemos „ImageNet“ 2021 m. tikslumas buvo 91 %; 2022 m. pagerėjimas buvo tik 0,1 procentinio punkto.
Taigi mes matome, kad šie etalonai yra prisotinti – tiesiog nėra ką tobulinti.
Be to, nors kai kurie etalonai nepasiekia 90 % tikslumo diapazono, jie pranoksta žmogaus bazinę liniją. Pavyzdžiui, „Visual Question Answering Challenge“ išbando AI sistemas su atvirais tekstiniais klausimais apie vaizdus. Šiais metais našiausias modelis pasiekė 84,3 % tikslumą. Žmogaus pradinis lygis yra apie 80 proc.
Ką tai reiškia tyrinėtojams?
Mano nuomone, galbūt mums reikia naujesnių ir išsamesnių gairių, pagal kurias galėtume juos įvertinti. Kitas būdas, kurį aš galvoju, yra toks: mūsų AI įrankiai šiuo metu nėra tokie, kokių norėtume, – jie pateikia klaidingą informaciją, sukuria seksistinius vaizdus. Kyla klausimas, jei gairės turėtų padėti mums pasiekti tikslą, koks tai tikslas? Kaip mes norime dirbti su AI ir kaip norime, kad AI dirbtų su mumis?
Galbūt mums reikia išsamesnių gairių – šiuo metu gairės dažniausiai tikrinamos pagal vieną tikslą. Tačiau kai pereiname prie AI įrankių, apimančių viziją, kalbą ir daugiau, ar mums reikia etalonų, kurie padėtų suprasti, pavyzdžiui, tikslumo ir šališkumo ar toksiškumo kompromisus? Ar galime atsižvelgti į daugiau socialinių veiksnių? Daug ko negalima išmatuoti naudojant kiekybinius etalonus. Manau, kad tai galimybė iš naujo įvertinti, ko norime iš šių priemonių.
Ar mokslininkai jau pradeda kurti geresnius etalonus?
Būdamas Stanfordo HAI, kuriame yra Fondų modelių tyrimų centras, galiu atkreipti dėmesį į HELM. HELM, sukurtas CRFM mokslininkų, nagrinėja kelis scenarijus ir kelias užduotis ir yra išsamesnis nei anksčiau matytas etalonas. Jame atsižvelgiama ne tik į tikslumą, bet ir į teisingumą, toksiškumą, efektyvumą, tvirtumą ir kt.
Tai tik vienas pavyzdys. Tačiau mums reikia daugiau šių metodų. Kadangi gairės nurodo AI vystymosi kryptį, jie turi labiau atitikti tai, kaip mes, žmonės ir kaip visuomenė, norime sąveikauti su šiomis priemonėmis.
Citata: Kadangi dirbtinis intelektas ir toliau lenkia žmogaus veiklą, laikas iš naujo įvertinti testus, sako ekspertas (2023 m. balandžio 5 d.), gautas 2023 m. balandžio 6 d. iš https://techxplore.com/news/2023-04-ai-surpass-human-reevaluate- ekspertas.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.

