Sokratas kartą pasakė: „Iš tikrųjų svarbu ne daikto dydis, o kokybė. Nes tikroji vertė randama medžiagos prigimtyje, o ne tūryje.
Ar dydis visada svarbus didelių kalbų modeliams (LLM)? Technologiniame kraštovaizdyje, kurį žavi LLM, užimantys pagrindinį vaidmenį, MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) mokslininkų komanda mano, kad mažesni modeliai neturėtų būti pamiršti, ypač kalbant apie natūralios kalbos supratimo produktus, plačiai naudojamus pramonėje.
Tuo tikslu mokslininkai parengė požiūrį į ilgalaikes neefektyvumo ir privatumo problemas, susijusias su dideliais tekstiniais dirbtinio intelekto modeliais – logiškai pagrįstu modeliu, kuris 500 kartų pranoksta kai kurias kalbos supratimo užduotis be žmogaus pastangų. sugeneruotus komentarus, išsaugant privatumą ir patikimumą bei didelį našumą.
LLM, kurios parodė tam tikrus daug žadančius kalbos, meno ir kodo generavimo įgūdžius, yra brangūs skaičiavimo požiūriu, o jų duomenų reikalavimai gali rizikuoti privatumo nutekėjimu, kai duomenims įkelti naudoja programų programavimo sąsajas. Mažesni modeliai istoriškai buvo mažiau pajėgūs, ypač atliekant kelias užduotis ir silpnai prižiūrimas užduotis, palyginti su didesniais modeliais.
Taigi, kas padeda šiems mažesniems modeliams veikti taip galingai? Tai, kas vadinama „teksto prielaida“, yra būdas padėti šiems modeliams suprasti įvairias kalbos užduotis, kai vienas sakinys (prielaida) yra teisingas, tikėtina, kad ir kitas sakinys (hipotezė) yra teisingas. Pavyzdžiui, jei prielaida yra „visos katės turi uodegas“, tada hipotezė „tabby katė turi uodegą“ turėtų būti grindžiama prielaida. Ši koncepcija naudojama mokant „priklausomybės modelį“, kuris, remiantis ankstesniais grupės tyrimais, pasirodė esąs mažiau šališkas nei kiti kalbos modeliai. Tada jie sukūrė „raginimus“, kuriuos modeliai gali naudoti norėdami išsiaiškinti, ar tam tikra informacija yra susijusi su tam tikru sakiniu ar fraze pagal skirtingas užduotis. Šis metodas pagerino modelio gebėjimą prisitaikyti prie skirtingų užduočių be jokio papildomo mokymo, žinomo kaip nulinio kadro adaptacija.
„Natūralios kalbos supratimo“ srityje yra įvairių programų, kurios priklauso nuo dviejų teksto dalių santykio nustatymo. Pavyzdžiui, klasifikuojant nuotaikas, toks teiginys kaip „Manau, kad filmas geras“ gali būti numanomas arba išplaukia iš filmo apžvalgos, kurioje sakoma: „Man patinka istorija ir vaidyba puiki“, nurodant teigiamą nuotaiką. Kitas yra naujienų klasifikavimas, kai naujienų straipsnio temą galima numanyti iš jo turinio. Pavyzdžiui, toks teiginys kaip „naujienų straipsnis yra apie sportą“ gali būti įtrauktas, jei pagrindinis straipsnio turinys pasakoja apie NBA žaidimą. Pagrindinė įžvalga buvo ta, kad daugelis esamų natūralios kalbos supratimo užduočių gali būti iš naujo išdėstytos kaip sąlyginė (ty loginės išvados natūralia kalba) užduotis.
„Mūsų tyrimas skirtas pagerinti kompiuterinių programų gebėjimą suprasti ir apdoroti natūralią kalbą – tai, kaip žmonės kalba ir rašo. Mūsų pačių parengti, 350 milijonų parametrų įpareigojimų modeliai be žmogaus sukurtų etikečių pranoksta prižiūrimus kalbos modelius su 137–175 milijardais parametrų“, – sako MIT CSAIL postdoc Hongyin Luo, naujo straipsnio apie tyrimą pagrindinis autorius. „Tai gali pakeisti AI ir mašininio mokymosi aplinką, suteikiant labiau keičiamo dydžio, patikimesnį ir ekonomiškesnį kalbos modeliavimo sprendimą“, – sako Luo. „Įrodžius, kad mažesni modeliai gali veikti taip pat kaip ir didesni, kad suprastų kalbą, šis darbas atveria kelią tvaresnėms ir privatumą tausojančioms AI technologijoms.
Komanda išsiaiškino, kad jie galėtų dar labiau pagerinti modelio našumą, taikydami techniką, vadinamą „savęs mokymu“, kai modelis naudoja savo prognozes, kad mokytųsi pats, efektyviai mokydamasis be žmogaus priežiūros ir papildomų anotuotų mokymo duomenų. Savarankiško mokymo metodas. žymiai pagerino daugelio tolesnių užduočių našumą, įskaitant nuotaikų analizę, atsakymus į klausimus ir naujienų klasifikavimą. Jis pranoko tiek Google LaMDA, tiek FLAN pagal nulinio kadro galimybes, GPT modelius ir kitus prižiūrimus algoritmus.
Tačiau vienas iš iššūkių, susijusių su savarankišku mokymu, yra tai, kad modelis kartais gali generuoti neteisingas arba triukšmingas etiketes, kurios kenkia veikimui. Norėdami tai įveikti, jie sukūrė naują algoritmą, pavadintą „SimPLE“ (paprastas pseudoetikečių redagavimas), procesą, skirtą peržiūrėti ir modifikuoti pseudo etiketes, padarytus pradiniuose mokymosi etapuose. Ištaisius visus netinkamai pažymėtus atvejus, pagerėjo bendra savarankiškai sukurtų etikečių kokybė. Tai ne tik padarė modelius veiksmingesnius kalbos supratimui, bet ir tvirtesnius, kai susiduria su priešingais duomenimis.
Kaip ir daugelyje tyrimų, yra tam tikrų apribojimų. Kelių klasių klasifikavimo užduočių savarankiškas mokymas buvo ne toks sėkmingas, kaip dvejetainės natūralios kalbos supratimo užduotys, o tai rodo, kad sudėtinga taikyti įpareigojimų modelius atliekant užduotis su daugybe pasirinkimų.
„Šis tyrimas pristato veiksmingą ir efektyvų būdą lavinti didelius kalbos modelius (LLM), formuluojant natūralios kalbos supratimo užduotis kaip kontekstines problemas ir naudojant pseudoženklinimo savarankiško mokymosi mechanizmą, kad į mokymo procesą būtų įtrauktas didelis kiekis nepažymėtų tekstinių duomenų. “ – priduria CSAIL vyresnysis mokslininkas Jamesas Glassas, kuris taip pat yra šio straipsnio autorius. „Nors LLM srityje vyksta greiti ir dramatiški pokyčiai, šis tyrimas rodo, kad galima sukurti gana kompaktiškus kalbos modelius, kurie labai gerai atlieka etaloninio supratimo užduotis, palyginti su jų bendraamžiais maždaug tokio paties dydžio ar net daug didesniais kalbos modeliais. .
„Įvertinimo užduotis yra populiarus tarpinis įrankis, leidžiantis įvertinti tam tikro konteksto „supratimą“ pagal AI modelį“, – sako Leonidas Karlinskis, MIT-IBM Watson AI laboratorijos tyrėjas. „Jis naudojamas daugelyje sričių, analizuojant modelius su unimodaliniais, pvz., LLM, ir multimodaliniais, pvz., VLM. [visual language models] įvestis, supaprastinant užduotį atsakyti į klausimus apie tam tikrą įvesties kontekstą iki dvejetainės klasifikacijos problemos – ar šis kontekstas reiškia tam tikrą (pvz., teksto) išvadą, ar ne? Šis dokumentas šioje erdvėje pateikia du indėlius. Pirma, jame siūlomas būdas pagerinti nulinio kadro (be papildomo derinimo) NLU našumą ir atsparumą priešpriešinėms atakoms derinant su sintezuotomis (specializuotomis) įpareigojančiomis užduotimis, sugeneruotomis pagrindinei NLU užduočiai. Antra, jis siūlo savarankiškai prižiūrimą SimPLE metodą, įskaitant pseudoženklinimą ir pasitikėjimu pagrįstą filtravimą, kad dar labiau pagerintų didelių LLM NLU našumą.
Luo ir Glassas parašė dokumentą su Yoon Kim, CSAIL nariu ir MIT Elektros inžinerijos ir kompiuterių mokslo katedros docentu bei Jiaxin Ge iš Pekino universiteto. Jų darbai bus pristatyti Kompiuterinės lingvistikos asociacijos susitikime Toronte, Ontarijuje šių metų liepą. Šis tyrimas buvo paremtas Honkongo inovacijų AI programos dotacija.

