3 Klausimai: Jacob Andreas Apie Didelių Kalbų Modelius

Žodžiai, duomenys ir algoritmai derinami,
Straipsnis apie LLM, toks dieviškas.
Žvilgsnis į kalbinį pasaulį,
Kur išskleidžiamos kalbos mašinos.

Tai buvo natūralus polinkis įpareigoti didelį kalbos modelį (LLM), pvz., CHATGPT, sukurti eilėraštį, kuris gilintųsi į didelių kalbų modelių temą, ir vėliau panaudoti minėtą eilėraštį kaip įvadinį šio straipsnio dalį.

TAU TAIP PAT GALI PATIKTI

Nuo iliuzijos iki realybės: kaip dirbtinis intelektas keičia žaidimų industriją

Komisija nubrėžia kelią Europos lyderystei dirbtinio intelekto srityje – pristatytas ambicingas „Dirbtinio intelekto žemyno veiksmų planas“

Taigi, kaip tiksliai tas eilėraštis buvo sujungtas į tvarkingą paketą su rimtais žodžiais ir mažais protingų frazių kąsneliais?

Mes nuėjome tiesiai į šaltinį: MIT docentą ir CSAIL vyriausiąjį tyrėją Jacobą Andreasą, kurio moksliniai tyrimai skirti tobulinti natūralios kalbos apdorojimo sritį, kuriant pažangiausius mašininio mokymosi modelius ir tyrinėjant kalbos, kaip priemonės, galinčios pagerinti kitas galimybes. dirbtinio intelekto formos. Tai apima novatorišką darbą tokiose srityse, kaip natūralios kalbos naudojimas robotams mokant ir kalbos panaudojimas, kad kompiuterinės regos sistemos galėtų aiškiai išdėstyti savo sprendimų priėmimo procesų priežastis. Ištyrėme Andreasą dėl šios technologijos mechanikos, pasekmių ir ateities perspektyvų.

K: Kalba yra turtinga ekosistema, subrendusi su subtiliais niuansais, kuriuos žmonės naudoja bendraudami vieni su kitais – sarkazmu, ironija ir kitomis perkeltinės kalbos formomis. Yra daug būdų, kaip perteikti prasmę, ne tik pažodinę. Ar dideli kalbos modeliai gali suvokti konteksto subtilybes? Ką reiškia modeliui pasiekti „mokymąsi kontekste“? Be to, kaip daugiakalbiai transformatoriai apdoroja skirtingų kalbų, išskyrus anglų, variantus ir dialektus?

A: Kai galvojame apie kalbinius kontekstus, šie modeliai gali samprotauti apie daug, daug ilgesnius dokumentus ir teksto dalis plačiau nei iš tikrųjų viskas, ką mes žinojome, kaip sukurti anksčiau. Bet tai tik vienas konteksto tipas. Su žmonėmis kalbos kūrimas ir supratimas vyksta pagrįstame kontekste. Pavyzdžiui, aš žinau, kad sėdžiu prie šio stalo. Yra objektų, į kuriuos galiu remtis, o šiuo metu turimi kalbos modeliai paprastai to nemato, kai bendraujama su vartotoju.

Egzistuoja platesnis socialinis kontekstas, kuris labai daug informuoja apie mūsų kalbos vartojimą, o šie modeliai bent jau ne iš karto yra jautrūs arba žinomi. Neaišku, kaip suteikti jiems informacijos apie socialinį kontekstą, kuriame vyksta jų kalbos generavimas ir kalbos modeliavimas. Kitas svarbus dalykas – laiko kontekstas. Filmuojame šį vaizdo įrašą tam tikru momentu, kai tam tikri faktai yra tiesa. Modeliai, kuriuos dabar turime, vėlgi buvo apmokyti interneto momentinės nuotraukos, kuri sustojo tam tikru metu – daugumai modelių, kuriuos turime dabar, tikriausiai prieš porą metų – ir jie nežino apie nieką, kas nutiko. nuo tada. Jie net nežino, kuriuo momentu jie kuria tekstą. Taip pat įdomus klausimas, kaip pateikti visus tuos skirtingus kontekstus.

Galbūt vienas iš labiausiai stebinančių komponentų yra šis reiškinys, vadinamas mokymusi kontekste. Jei paimsiu mažą ML [machine learning] duomenų rinkinį ir pateikite jį modeliui, pvz., filmo apžvalgą ir kritiko filmui priskirtą įvertinimą žvaigždutėmis, pateikiate tik kelis šių dalykų pavyzdžius, kalbiniai modeliai sukuria galimybę generuoti patikimai skambančias filmų apžvalgas, bet ir prognozuoti žvaigždžių reitingus. Apskritai, jei turiu mašininio mokymosi problemą, turiu savo įvestis ir išvestis. Kai pateikiate modelio įvestį, suteikiate jam dar vieną įvestį ir paprašote nuspėti išvestį, modeliai dažnai gali tai padaryti tikrai gerai.

Tai labai įdomus, iš esmės kitoks mašininio mokymosi būdas, kai turiu vieną didelį bendros paskirties modelį, į kurį galiu įterpti daug mažų mašininio mokymosi duomenų rinkinių, tačiau visai nereikia mokyti naujo modelio, klasifikatoriaus ar generatorius ar kita, kuri specializuojasi mano konkrečiai užduočiai. Iš tikrųjų apie tai daug galvojome mano grupėje ir kai kuriuose bendradarbiaudami su kolegomis iš „Google“ – bandydami tiksliai suprasti, kaip iš tikrųjų atsiranda šis mokymosi kontekste reiškinys.

K: Mums patinka tikėti, kad žmonės (bent jau šiek tiek) siekia to, kas objektyviai ir moraliai žinoma kaip tiesa. Dideli kalbų modeliai, galbūt su nepakankamai apibrėžtais arba dar nesuprantamais „moraliniais kompasais“, neatitinka tiesos. Kodėl dideli kalbos modeliai linkę haliucinuoti faktus arba užtikrintai tvirtina netikslumus? Ar tai riboja programų, kuriose labai svarbus faktinis tikslumas, naudingumą? Ar yra pagrindinė teorija, kaip tai išspręsime?

A: Gerai įrodyta, kad šie modeliai haliucinuoja faktus, kad jie ne visada yra patikimi. Neseniai paprašiau „ChatGPT“ apibūdinti kai kuriuos mūsų grupės tyrimus. Jame buvo pavadinti penki straipsniai, iš kurių keturi iš tikrųjų neegzistuoja, o vienas iš jų yra tikras dokumentas, kurį parašė Jungtinėje Karalystėje gyvenantis mano kolega, su kuriuo niekada nebuvau parašęs. Faktas vis dar yra didelė problema. Net ir be to, dalykai, susiję su samprotavimu tikrai bendrąja prasme, dalykai, susiję su sudėtingais skaičiavimais, sudėtingomis išvadomis, šiems modeliams vis dar atrodo labai sunkūs. Gali būti net esminių šios transformatoriaus architektūros apribojimų, ir manau, kad reikia daug daugiau modeliavimo darbų, kad viskas būtų geriau.

Kodėl taip nutinka, vis dar iš dalies atviras klausimas, bet galbūt tik architektūriniu požiūriu yra priežasčių, kodėl šiems modeliams sunku sukurti nuoseklius pasaulio modelius. Jie gali tai padaryti šiek tiek. Galite užduoti jiems faktinius klausimus, smulkmenas, ir jie dažniausiai juos pateikia teisingai, galbūt net dažniau nei jūsų paprastas vartotojas iš gatvės. Tačiau skirtingai nei paprastas žmogus, tikrai neaišku, ar šiame kalbos modelyje yra kas nors, kas atitinka tikėjimą apie pasaulio būklę. Manau, taip yra ir dėl architektūrinių priežasčių, kad transformatoriai, aišku, neturi kur dėti to įsitikinimo, ir dėl mokymo duomenų, kad šie modeliai yra mokomi internete, o to autoriai įvairiais momentais buvo daugybė skirtingų žmonių. tikėti skirtingais dalykais apie pasaulio būklę. Todėl sunku tikėtis, kad modeliai tuos dalykus reprezentuos nuosekliai.

Visa tai pasakius, nemanau, kad tai yra esminis neuroninių kalbos modelių ar net bendresnių kalbos modelių apribojimas apskritai, bet tai, kas tiesa apie šiandieninius kalbos modelius. Jau matome, kad modeliai artėja, galintys kurti faktus, pasaulio būklės reprezentacijas, ir manau, kad yra kur tobulėti.

K: Pažangos nuo GPT-2 iki GPT-3 iki GPT-4 tempas buvo svaiginantis. Kaip iš čia atrodo trajektorijos tempas? Ar jis bus eksponentinis, ar S kreivė, kuri artimiausiu metu sumažės? Jei taip, ar yra masto, skaičiavimo, duomenų ar architektūros ribojančių veiksnių?

A: Neabejotinai trumpuoju laikotarpiu dalykas, kurio aš labiausiai bijau, yra susijęs su šiomis tiesos ir nuoseklumo problemomis, kurias minėjau anksčiau, nes net geriausi modeliai, kuriuos šiandien turime, generuoja neteisingus faktus. Jie generuoja kodą su klaidomis ir dėl šių modelių veikimo būdo tai daro žmonėms ypač sunku pastebėti, nes modelio išvestis turi visą tinkamą paviršiaus statistiką. Kai galvojame apie kodą, vis dar lieka atviras klausimas, ar iš tikrųjų mažiau darbo kažkam parašyti funkciją ranka, ar paprašyti kalbos modelio sugeneruoti tą funkciją, o tada leisti asmeniui pereiti ir patikrinti, ar ta funkcija buvo įgyvendinta. iš tikrųjų teisinga.

Egzistuoja nedidelis pavojus, jei skubėsite nedelsiant panaudoti šiuos įrankius ir atsidursime pasaulyje, kuriame viskas yra šiek tiek blogiau, bet iš tikrųjų žmonėms labai sunku patikimai patikrinti šių modelių rezultatus. Tai yra problemos, kurias galima įveikti. Ypač greitai viskas juda, todėl yra daug erdvės spręsti šias sugeneruoto kodo faktiškumo ir nuoseklumo bei teisingumo problemas ilgalaikėje perspektyvoje. Tai tikrai įrankiai, įrankiai, kuriuos galime naudoti norėdami išlaisvinti save, kaip visuomenę, nuo daugybės nemalonių užduočių, namų ruošos darbų ar sunkaus darbo, kurį buvo sunku automatizuoti – ir tuo jaudintis.

Nuo iliuzijos iki realybės: kaip dirbtinis intelektas keičia žaidimų industriją

Komisija nubrėžia kelią Europos lyderystei dirbtinio intelekto srityje – pristatytas ambicingas „Dirbtinio intelekto žemyno veiksmų planas“

Pasėlių Deklaravimas: Augalų Juostas Galima įrengti Tik Ariamojoje žemėje

Parašykite komentarą Atšaukti atsakymą

Naujausi komentarai

Tema

Partneriai

Naujienos

Kategorijos

Naujausi komentarai

Sveiki sugrįžę!

Retrieve your password