Ne paslaptis, kad OpenAI ChatGPT turi keletą neįtikėtinų galimybių – pavyzdžiui, pokalbių robotas gali rašyti poeziją, primenančią Šekspyro sonetus arba derinti kompiuterio programos kodą. Šiuos gebėjimus įgalina didžiulis mašininio mokymosi modelis, kurio pagrindu sukurtas „ChatGPT“. Tyrėjai nustatė, kad kai tokio tipo modeliai tampa pakankamai dideli, atsiranda nepaprastų galimybių.
Tačiau didesniems modeliams apmokyti taip pat reikia daugiau laiko ir pinigų. Mokymo procesas apima šimtų milijardų pavyzdžių rodymą modeliui. Tiek duomenų rinkimas yra sudėtingas procesas. Tada ateina piniginės ir aplinkosaugos kaštai, susiję su daugelio galingų kompiuterių eksploatavimu kelias dienas ar savaites, norint parengti modelį, kuris gali turėti milijardus parametrų.
„Apskaičiuota, kad tokio masto treniruočių modeliai, kokiu, kaip spėjama, gali veikti ChatGPT, gali kainuoti milijonus dolerių vienam treniruočių bėgimui. Ar galime pagerinti šių mokymo metodų efektyvumą, kad vis tiek galėtume gauti gerų modelių per trumpesnį laiką ir už mažiau pinigų? Siūlome tai padaryti naudojant mažesnius kalbos modelius, kurie anksčiau buvo išmokyti“, – sako Yoon Kim, MIT Elektros inžinerijos ir kompiuterių mokslo katedros docentas ir Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) narys.
Užuot atmetęs ankstesnę modelio versiją, Kimas ir jo bendradarbiai naudoja ją kaip naujo modelio blokus. Naudojant mašininį mokymąsi, jų metodas išmoksta „išauginti“ didesnį modelį iš mažesnio modelio taip, kad būtų užkoduotos žinios, kurias mažesnis modelis jau įgijo. Tai leidžia greičiau treniruoti didesnį modelį.
Jų technika sutaupo apie 50 procentų skaičiavimo išlaidų, reikalingų dideliam modeliui parengti, palyginti su metodais, kuriais naujas modelis mokomas nuo nulio. Be to, modeliai, apmokyti naudojant MIT metodą, veikė taip pat arba geriau nei modeliai, mokyti naudojant kitus metodus, kurie taip pat naudoja mažesnius modelius, kad būtų galima greičiau treniruoti didesnius modelius.
Sumažinus milžiniškų modelių mokymo laiką, mokslininkai galėtų greičiau tobulėti su mažesnėmis sąnaudomis, taip pat sumažinti anglies dvideginio išmetimą mokymo proceso metu. Tai taip pat leistų mažesnėms mokslinių tyrimų grupėms dirbti su šiais didžiuliais modeliais, o tai gali atverti duris daugeliui naujų pasiekimų.
„Kadangi stengiamės demokratizuoti šių tipų technologijas, mokymasis taps greitesnis ir pigesnis“, – sako Kimas, vyresnysis šio metodo autorius.
Kimas ir jo magistrantas Lucas Torroba Hennigen parašė darbą su pagrindiniu autoriumi Peihao Wangu, Teksaso universiteto Ostine magistrantu, taip pat kitais MIT-IBM Watson AI laboratorijos ir Kolumbijos universiteto darbuotojais. Tyrimas bus pristatytas tarptautinėje mokymosi reprezentacijų konferencijoje.
Kuo didesnis tuo geriau
Dideli kalbų modeliai, tokie kaip GPT-3, kuris yra „ChatGPT“ pagrindas, yra sukurti naudojant neuroninio tinklo architektūrą, vadinamą transformatoriumi. Neuroninis tinklas, laisvai pagrįstas žmogaus smegenimis, sudarytas iš tarpusavyje sujungtų mazgų arba „neuronų“ sluoksnių. Kiekviename neurone yra parametrų, kurie yra mokymo proceso metu išmokti kintamieji, kuriuos neuronas naudoja duomenims apdoroti.
Transformatorių architektūros yra unikalios, nes didėjant šio tipo neuroninių tinklų modeliams, jie pasiekia daug geresnių rezultatų.
„Tai paskatino įmonių, bandančių apmokyti vis didesnius transformatorius vis didesniuose duomenų rinkiniuose, ginklavimosi lenktynes. Labiau nei kitos architektūros, atrodo, kad transformatorių tinklai tampa daug geresni keičiant mastelį. Mes tiesiog nesame tikri, kodėl taip yra“, – sako Kim.
Šie modeliai dažnai turi šimtus milijonų ar milijardus išmokstamų parametrų. Visų šių parametrų mokymas nuo nulio yra brangus, todėl mokslininkai siekia pagreitinti procesą.
Viena veiksminga technika yra žinoma kaip modelio augimas. Naudodami modelio augimo metodą, mokslininkai gali padidinti transformatoriaus dydį, nukopijuodami neuronus ar net ištisus ankstesnės tinklo versijos sluoksnius, tada sudėdami juos ant viršaus. Jie gali padaryti tinklą platesnį, pridėdami naujų neuronų į sluoksnį arba pagilinti, pridėdami papildomų neuronų sluoksnių.
Priešingai nei ankstesni modelio augimo metodai, parametrai, susiję su naujais neuronais išplėstiniame transformatoriuje, nėra tik mažesnio tinklo parametrų kopijos, aiškina Kim. Atvirkščiai, jie yra išmokti mažesnio modelio parametrų deriniai.
Mokymasis augti
Kimas ir jo bendradarbiai naudoja mašininį mokymąsi, kad išmoktų tiesinį mažesnio modelio parametrų atvaizdavimą. Šis tiesinis žemėlapis yra matematinė operacija, kuri paverčia įvesties reikšmių rinkinį, šiuo atveju mažesniojo modelio parametrus, į išvesties reikšmių rinkinį, šiuo atveju į didesnio modelio parametrus.
Jų metodas, kurį jie vadina išmoktu linijinio augimo operatoriumi (LiGO), išmoksta išplėsti didesnio tinklo plotį ir gylį iš mažesnio tinklo parametrų duomenų valdomu būdu.
Tačiau mažesnis modelis iš tikrųjų gali būti gana didelis – galbūt jis turi šimtą milijonų parametrų – ir mokslininkai galbūt norėtų sukurti modelį su milijardu parametrų. Taigi LiGO technika suskaido linijinį žemėlapį į mažesnes dalis, kurias gali apdoroti mašininio mokymosi algoritmas.
LiGO taip pat išplečia plotį ir gylį vienu metu, todėl jis yra efektyvesnis nei kiti metodai. Įvesdamas mažesnį modelį ir jo parametrus, naudotojas gali nustatyti, kokio pločio ir gylio nori didesnio modelio, aiškina Kim.
Kai jie palygino savo techniką su naujo modelio mokymo procesu nuo nulio, taip pat su modelio tobulinimo metodais, tai buvo greitesnė nei visos pradinės linijos. Jų metodas sutaupo apie 50 procentų skaičiavimo išlaidų, reikalingų tiek regėjimo, tiek kalbos modeliams lavinti, o dažnai pagerina našumą.
Tyrėjai taip pat nustatė, kad jie gali naudoti LiGO, kad paspartintų transformatorių mokymą, net jei jie neturėjo prieigos prie mažesnio, iš anksto paruošto modelio.
„Buvau nustebintas, kad visi metodai, įskaitant mūsų, buvo geresni, palyginti su atsitiktine inicijavimu, traukiniu nuo nulio. Kim sako.
Ateityje Kimas ir jo bendradarbiai nekantrauja pritaikyti LiGO dar didesniems modeliams.
Darbą iš dalies finansavo MIT-IBM Watson AI Lab, Amazon, IBM tyrimų AI aparatinės įrangos centras, Rensselaer politechnikos instituto skaičiavimo inovacijų centras ir JAV armijos tyrimų biuras.