Atleidimo iš darbo vertinimo schema. Kreditas: Gamtos komunikacijos (2023). DOI: 10.1038/s41467-023-42992-y Nuo ChatGPT iki DALL-E, gilaus mokymosi dirbtinio intelekto (AI) algoritmai taikomi vis daugiau sričių. Naujas Toronto universiteto inžinerijos mokslininkų tyrimas, paskelbtas m Gamtos komunikacijos, rodo, kad viena iš pagrindinių giluminio mokymosi modelių prielaidų – kad jiems reikia didžiulio kiekio mokymo duomenų – gali būti ne tokia tvirta, kaip buvo manyta.
Profesorius Jasonas Hattrickas-Simpersas ir jo komanda daugiausia dėmesio skiria naujos kartos medžiagų projektavimui – nuo katalizatorių, kurie paverčia sugautą anglį degalais, iki nelipnių paviršių, kurie neleidžia lėktuvo sparnams apledėti.
Vienas iš iššūkių šioje srityje yra didžiulė potenciali paieškos erdvė. Pavyzdžiui, atvirojo katalizatoriaus projekte yra daugiau nei 200 milijonų duomenų taškų apie potencialias katalizatoriaus medžiagas, kurie vis dar apima tik nedidelę didžiulės cheminės erdvės dalį, kuri, pavyzdžiui, gali paslėpti tinkamą katalizatorių, padedantį kovoti su klimato kaita.
„AI modeliai gali padėti mums efektyviai ieškoti šioje erdvėje ir susiaurinti pasirinkimą iki tų medžiagų šeimų, kurios bus perspektyviausios“, – sako Hattrick-Simpers.
„Tradiciškai manoma, kad norint parengti tikslius AI modelius reikia daug duomenų. Tačiau toks duomenų rinkinys kaip „Open Catalyst Project” yra toks didelis, kad jums reikia labai galingų superkompiuterių, kad galėtumėte su tuo susidoroti. Taigi kyla klausimas turime rasti būdą, kaip nustatyti mažesnius duomenų rinkinius, kuriuos naudodami žmonės, neturintys prieigos prie didžiulės skaičiavimo galios, galėtų treniruoti savo modelius.
Tačiau tai sukelia antrą iššūkį: daugelis šiuo metu turimų mažesnių medžiagų duomenų rinkinių buvo sukurti konkrečiai sričiai, pavyzdžiui, siekiant pagerinti akumuliatoriaus elektrodų veikimą.
Tai reiškia, kad jie linkę susitelkti aplink keletą cheminių kompozicijų, panašių į tas, kurios jau naudojamos šiandien, ir gali trūkti galimybių, kurios galėtų būti daug žadančios, bet ne taip intuityviai akivaizdžios.
„Įsivaizduokite, jei norėtumėte sukurti modelį, pagal kurį būtų galima numatyti galutinius mokinių pažymius pagal ankstesnius testų rezultatus“, – sako Hattrick-Simpers laboratorijos doktorantas daktaras Kangmingas Li. „Jei mokytumėte jį tik studentams iš Kanados, tai gali puikiai pasirodyti tokiame kontekste, bet gali nepavykti tiksliai numatyti studentų iš Prancūzijos ar Japonijos pažymių. Su tokia situacija mes susiduriame medžiagų pasaulyje.”
Vienas iš galimų sprendimų, kaip išspręsti pirmiau minėtus iššūkius, yra nustatyti duomenų pogrupius iš labai didelių duomenų rinkinių, kuriuos lengviau apdoroti, tačiau kurie vis dėlto išsaugo visą originalo informacijos ir įvairovę.
Siekdamas geriau suprasti, kaip duomenų rinkinių savybės veikia modelius, kuriais jie naudojami treniruoti, Li sukūrė metodus, kaip nustatyti aukštos kokybės duomenų pogrupius iš anksčiau paskelbtų medžiagų duomenų rinkinių, tokių kaip JARVIS, The Materials Project ir Open Quantum Materials Database (OQMD). ). Kartu šiose duomenų bazėse yra informacijos apie daugiau nei milijoną skirtingų medžiagų.
Li sukūrė kompiuterinį modelį, kuris numatė medžiagos savybes ir mokė jį dviem būdais: vienas naudojo pradinį duomenų rinkinį, bet kitas naudojo tų pačių duomenų poaibį, kuris buvo maždaug 95 % mažesnis.
„Mes nustatėme, kad bandant nuspėti medžiagos, esančios duomenų rinkinio srityje, savybes, modelis, kuris buvo apmokytas tik 5% duomenų, veikė maždaug taip pat, kaip ir tas, kuris buvo apmokytas. visus duomenis“, – sako Li. „Atvirkščiai, bandant numatyti medžiagos, kuri buvo už duomenų rinkinio srities ribų, savybes, abiems sekėsi taip pat prastai.
Li sako, kad išvados siūlo būdą išmatuoti perteklinių duomenų kiekį tam tikrame duomenų rinkinyje: jei daugiau duomenų nepagerina modelio našumo, tai gali būti rodiklis, kad tie papildomi duomenys yra pertekliniai ir nesuteikia naujos informacijos modeliams. .
„Mūsų rezultatai taip pat atskleidžia, kad šiuose labai geidžiamuose dideliuose duomenų rinkiniuose yra paslėptas perteklumo laipsnis“, – sako Li.
Tyrimas taip pat pabrėžia tai, ką AI ekspertai iš daugelio sričių laiko tiesa: kad net modeliai, parengti naudojant palyginti mažus duomenų rinkinius, gali gerai veikti, jei duomenys yra pakankamai aukštos kokybės.
„Visa tai išaugo iš to, kad kalbant apie AI naudojimą medžiagų atradimui paspartinti, mes tik pradedame“, – sako Hattrick-Simpers.
„Tai rodo, kad eidami į priekį turime labai apgalvoti, kaip kurdami duomenų rinkinius. Tai tiesa, nesvarbu, ar tai daroma iš viršaus į apačią, pavyzdžiui, pasirenkant duomenų poaibį iš daug didesnio duomenų rinkinio, ar iš duomenų rinkinio. iš apačios į viršų, kaip ir imant naujų medžiagų, kurias reikia įtraukti, mėginius.
„Turime atkreipti dėmesį į informacijos turtingumą, o ne tik rinkti kuo daugiau duomenų.”
Daugiau informacijos: Kangming Li ir kt., Didelių medžiagų duomenų rinkinių pertekliaus išnaudojimas efektyviam mašininiam mokymuisi naudojant mažiau duomenų, Gamtos komunikacijos (2023). DOI: 10.1038/s41467-023-42992-y
Citata: Naujas tyrimas rodo, kad didesni duomenų rinkiniai ne visada gali būti geresni dirbtinio intelekto modeliams (2023 m. lapkričio 13 d.), gauti 2023 m. lapkričio 13 d. iš https://techxplore.com/news/2023-11-bigger-datasets-ai.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.

