Dideli kalbų modeliai, tokie kaip OpenAI GPT-3, yra didžiuliai neuroniniai tinklai, galintys generuoti į žmogų panašų tekstą – nuo poezijos iki programavimo kodo. Šie mašininio mokymosi modeliai, išmokyti naudojant daugybę interneto duomenų, įveda nedidelę dalį teksto ir numato kitą tekstą.
Tačiau tai dar ne viskas, ką šie modeliai gali padaryti. Tyrėjai tiria keistą reiškinį, žinomą kaip mokymasis kontekste, kai didelis kalbos modelis išmoksta atlikti užduotį, matydamas tik kelis pavyzdžius, nepaisant to, kad jis nebuvo apmokytas atlikti šią užduotį. Pavyzdžiui, kas nors galėtų pateikti modeliui kelis pavyzdinius sakinius ir jų jausmus (teigiamus arba neigiamus), tada paskatinti jį nauju sakiniu, ir modelis gali pateikti teisingą nuotaiką.
Paprastai mašininio mokymosi modelis, pvz., GPT-3, turi būti perkvalifikuotas naudojant naujus duomenis šiai naujai užduočiai atlikti. Šio mokymo proceso metu modelis atnaujina savo parametrus, kai apdoroja naują informaciją, kad išmoktų užduotį. Tačiau naudojant kontekstinį mokymąsi, modelio parametrai neatnaujinami, todėl atrodo, kad modelis išmoksta naują užduotį visiškai nieko neišmokęs.
Mokslininkai iš MIT, Google Research ir Stanfordo universiteto stengiasi įminti šią paslaptį. Jie ištyrė modelius, kurie yra labai panašūs į didelių kalbų modelius, kad sužinotų, kaip jie gali mokytis neatnaujindami parametrų.
Tyrėjų teoriniai rezultatai rodo, kad šie didžiuliai neuroninių tinklų modeliai gali turėti mažesnius, paprastesnius linijinius modelius, palaidotus juose. Tada didelis modelis galėtų įgyvendinti paprastą mokymosi algoritmą, kad šis mažesnis, tiesinis modelis būtų išmokytas atlikti naują užduotį, naudojant tik didesniame modelyje jau esančią informaciją. Jo parametrai išlieka pastovūs.
Svarbus žingsnis siekiant suprasti mokymosi kontekste mechanizmus, šis tyrimas atveria duris daugiau tyrinėti mokymosi algoritmus, kuriuos gali įgyvendinti šie dideli modeliai, sako Ekinas Akyürekas, informatikos magistrantūros studentas ir pagrindinis šio reiškinio tyrimo autorius. Geriau suprasdami mokymąsi kontekste, tyrėjai galėtų sudaryti sąlygas modeliams atlikti naujas užduotis be brangaus perkvalifikavimo.
„Paprastai, jei norite patikslinti šiuos modelius, turite rinkti konkrečių domenų duomenis ir atlikti tam tikrą sudėtingą inžineriją. Tačiau dabar galime tiesiog pateikti įvestį, penkis pavyzdžius, ir tai padarys tai, ko norime. Taigi -Kontekstinis mokymasis yra nepagrįstai efektyvus mokymosi reiškinys, kurį reikia suprasti“, – sako Akyürek.
Prie Akyürek prisijungia Dale’as Schuurmansas, „Google Brain“ mokslininkas ir Albertos universiteto skaičiavimo mokslų profesorius; taip pat vyresnieji autoriai Jacob Andreas, X konsorciumo asistentas MIT Elektros inžinerijos ir kompiuterių mokslo katedroje ir MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) narys; Tengyu Ma, Stanfordo kompiuterių mokslo ir statistikos docentas; ir Danny Zhou, pagrindinis „Google Brain“ mokslininkas ir tyrimų direktorius. Tyrimas bus pristatytas tarptautinėje mokymosi reprezentacijų konferencijoje.
Modelis modelyje
Mašininio mokymosi mokslinių tyrimų bendruomenėje daugelis mokslininkų tikėjo, kad dideli kalbų modeliai gali mokytis kontekste dėl to, kaip jie yra mokomi, sako Akyürek.
Pavyzdžiui, GPT-3 turi šimtus milijardų parametrų ir buvo išmokytas skaitant daugybę tekstų internete, nuo Vikipedijos straipsnių iki Reddit įrašų. Taigi, kai kas nors parodo naujos užduoties modelio pavyzdžius, jis tikriausiai jau matė kažką labai panašaus, nes jo mokymo duomenų rinkinyje buvo tekstas iš milijardų svetainių. Jis kartoja modelius, kuriuos matė treniruočių metu, o ne mokosi atlikti naujas užduotis.
Akyürek iškėlė hipotezę, kad kontekste besimokantys asmenys ne tik atitinka anksčiau matytus modelius, bet iš tikrųjų mokosi atlikti naujas užduotis. Jis ir kiti eksperimentavo suteikdami šiuos modelius raginimus naudodami sintetinius duomenis, kurių anksčiau niekur negalėjo matyti, ir nustatė, kad modeliai vis tiek gali pasimokyti iš kelių pavyzdžių. Akyürek ir jo kolegos manė, kad galbūt šiuose neuroninių tinklų modeliuose yra mažesni mašininio mokymosi modeliai, kuriuos modeliai gali išmokyti atlikti naują užduotį.
„Tai galėtų paaiškinti beveik visus mokymosi reiškinius, kuriuos matėme su šiais dideliais modeliais“, – sako jis.
Norėdami patikrinti šią hipotezę, mokslininkai naudojo neuroninio tinklo modelį, vadinamą transformatoriumi, kurio architektūra tokia pati kaip GPT-3, tačiau buvo specialiai apmokyta mokytis kontekste.
Tyrinėdami šio transformatoriaus architektūrą, jie teoriškai įrodė, kad jis gali parašyti linijinį modelį savo paslėptose būsenose. Neuroninį tinklą sudaro daugybė tarpusavyje sujungtų mazgų, apdorojančių duomenis, sluoksnių. Paslėptos būsenos yra sluoksniai tarp įvesties ir išvesties sluoksnių.
Jų matematiniai vertinimai rodo, kad šis tiesinis modelis parašytas kažkur ankstyviausiuose transformatoriaus sluoksniuose. Tada transformatorius gali atnaujinti tiesinį modelį įdiegdamas paprastus mokymosi algoritmus.
Iš esmės modelis imituoja ir treniruoja mažesnę savo versiją.
Paslėptų sluoksnių zondavimas
Tyrėjai ištyrė šią hipotezę naudodami zondavimo eksperimentus, kurių metu jie pažvelgė į paslėptus transformatoriaus sluoksnius, kad bandytų atkurti tam tikrą kiekį.
„Šiuo atveju mes bandėme atkurti tikrąjį linijinio modelio sprendimą ir galėjome parodyti, kad parametras parašytas paslėptose būsenose. Tai reiškia, kad linijinis modelis yra kažkur“, – sako jis.
Remdamiesi šiuo teoriniu darbu, mokslininkai gali leisti transformatoriui atlikti kontekstinį mokymąsi, pridėdami tik du neuroninio tinklo sluoksnius. Akyürek įspėja, kad dar reikia išsiaiškinti daugybę techninių detalių, tačiau tai gali padėti inžinieriams sukurti modelius, kurie galėtų atlikti naujas užduotis, nereikalaujant perkvalifikuoti naujų duomenų.
„Straipsnyje atskleidžiama viena ryškiausių šiuolaikinių didelių kalbų modelių savybių – jų gebėjimas mokytis iš duomenų, pateiktų įvestyje, be aiškaus mokymo. Naudodami supaprastintą tiesinės regresijos atvejį, autoriai teoriškai parodo, kaip modeliai gali įgyvendinti standartinius mokymosi algoritmus skaitydami jų įvestį, ir empiriškai, kurie mokymosi algoritmai geriausiai atitinka jų stebimą elgesį“, – sako Mike’as Lewisas, „Facebook AI Research“ mokslininkas, kuris nebuvo dalyvauja šiame darbe. „Šie rezultatai yra žingsnis siekiant suprasti, kaip modeliai gali išmokti sudėtingesnių užduočių, ir padės tyrėjams sukurti geresnius kalbos modelių mokymo metodus, kad būtų dar labiau pagerintas jų veikimas.”
Judėdamas į priekį, Akyürek planuoja ir toliau tyrinėti kontekstinį mokymąsi su funkcijomis, kurios yra sudėtingesnės nei linijiniai modeliai, kuriuos jie tyrinėjo šiame darbe. Jie taip pat galėtų pritaikyti šiuos eksperimentus dideliems kalbos modeliams, kad sužinotų, ar jų elgesys taip pat aprašytas paprastais mokymosi algoritmais. Be to, jis nori giliau įsigilinti į išankstinio mokymo duomenų tipus, kurie gali padėti mokytis kontekste.
„Su šiuo darbu žmonės dabar gali įsivaizduoti, kaip šie modeliai gali mokytis iš pavyzdžių. Taigi, tikiuosi, kad tai pakeis kai kurių žmonių požiūrį į mokymąsi kontekste“, – sako Akyürek. „Šie modeliai nėra tokie kvaili, kaip žmonės galvoja. Jie ne tik įsimena šias užduotis. Jie gali išmokti naujų užduočių, o mes parodėme, kaip tai galima padaryti.
Paspauskite Paminėjimai
Pagrindinė plokštė
Pagrindinė plokštė reporterė Tatyana Woodall rašo, kad naujame MIT mokslininkų bendraautoriame tyrime nustatyta, kad dirbtinio intelekto modeliai, kurie gali išmokti atlikti naujas užduotis tik iš kelių pavyzdžių, sukuria mažesnius modelius savyje, kad pasiektų šias naujas užduotis. „Mokymasis yra supainiotas [existing] žinių“, – aiškina magistrantas Ekinas Akyürekas. „Parodome, kad šie modeliai gali mokytis iš pavyzdžių skrydžio metu, neatnaujinant modeliui taikomų parametrų.