Generatyvaus dirbtinio intelekto atsiradimas įžiebė gilų filosofinį sąmonės, kūrybiškumo ir autorystės prigimties tyrinėjimą. Liudydami apie naujus pasiekimus šioje srityje, vis labiau akivaizdu, kad šie sintetiniai agentai turi nepaprastą gebėjimą kurti, kartoti ir mesti iššūkį mūsų tradicinėms intelekto sampratoms. Tačiau ką iš tikrųjų reiškia dirbtinio intelekto sistemai būti „generatyviam“, kai naujos neryškios kūrybinės raiškos ribos tarp žmonių ir mašinų?
Tiems, kurie jaučiasi tarsi „generacinis dirbtinis intelektas“ – dirbtinio intelekto tipas, galintis sukurti naujus ir originalius duomenis ar turinį, panašų į tą, kurio jis buvo išmokytas, – pakopinis egzistavimas kaip vienos nakties sensacija, nors iš tiesų naujos galimybės nustebino daugelį. , pagrindinė technologija buvo kuriama jau kurį laiką.
Tačiau tikrojo pajėgumo supratimas gali būti toks pat neaiškus, kaip ir tam tikras šių modelių generuojamas turinys. Tuo tikslu mokslininkai iš MIT Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) susirinko į diskusijas apie generatyvaus AI galimybes ir apribojimus, taip pat apie jo galimą poveikį visuomenei ir pramonės šakoms kalbant, vaizdais ir kodu.
Yra įvairių generatyvaus AI modelių, kurių kiekvienas turi savo unikalius metodus ir metodus. Tai apima generatyvius priešingus tinklus (GAN), variacinius automatinius koduotuvus (VAE) ir difuzijos modelius, kurie visi parodė išskirtinę galią įvairiose pramonės šakose ir srityse, nuo meno iki muzikos ir medicinos. Taip pat atsirado daugybė etinių ir socialinių galvosūkių, tokių kaip galimybė generuoti netikras naujienas, klastotes ir dezinformaciją. Pasak mokslininkų, labai svarbu atsižvelgti į šiuos svarstymus, kad būtų galima toliau tirti generatyvaus AI galimybes ir apribojimus bei užtikrinti etišką naudojimą ir atsakomybę.
Per įžangines pastabas, norėdamos iliustruoti šių modelių vizualinį meistriškumą, MIT elektros inžinerijos ir kompiuterių mokslo (EECS) profesorė ir CSAIL direktorė Daniela Rus ištraukė ypatingą dovaną, kurią neseniai jai įteikė jos studentai: dirbtinio intelekto portretų koliažą su besišypsančiomis nuotraukomis. Rus, veikiantis veidrodinių atspindžių spektrą. Tačiau nebuvo matyti nė vieno užsakyto menininko.
Mašina turėjo padėkoti.
Generatyvieji modeliai mokosi kurti vaizdus atsisiųsdami daug nuotraukų iš interneto ir bandydami, kad išvesties vaizdas atrodytų kaip pavyzdiniai mokymo duomenys. Yra daug būdų išmokyti neuroninio tinklo generatorių, o difuzijos modeliai yra tik vienas populiarus būdas. Šie modeliai, kuriuos paaiškino MIT EECS docentas ir CSAIL vyriausiasis tyrėjas Phillipas Isola, sudaro atsitiktinio triukšmo vaizdą į vaizdus. Naudodamas procesą, vadinamą difuzija, modelis pavers struktūrinius objektus, pvz., vaizdus, į atsitiktinį triukšmą, o procesas apverčiamas treniruojant neuroninį tinklą žingsnis po žingsnio pašalinti triukšmą, kol bus gautas netriukšmingas vaizdas. Jei kada nors bandėte naudoti DALL-E 2, kai įvedamas sakinys ir atsitiktinis triukšmas, o triukšmas susilieja į vaizdus, naudojote sklaidos modelį.
„Mane labiausiai jaudinantis generuojamųjų duomenų aspektas yra ne jų gebėjimas kurti fotorealistinius vaizdus, o precedento neturintis valdymo lygis, kurį jie mums suteikia. Jame mums siūlomos naujos pasukamos rankenėlės ir reguliuojami ratukai, todėl atsiveria įdomios galimybės. Kalba tapo ypač galinga vaizdų generavimo sąsaja, leidžiančia įvesti aprašymą, pvz., „Van Gogo stilius“, ir modeliui sukurti vaizdą, atitinkantį šį aprašymą“, – sako Isola. „Tačiau kalba nėra visa apimanti; kai kuriuos dalykus sunku perteikti vien žodžiais. Pavyzdžiui, portreto fone gali būti sudėtinga pranešti tikslią kalno vietą. Tokiais atvejais galima naudoti alternatyvius metodus, pvz., eskizą, kad būtų galima pateikti konkretesnius modelio duomenis ir pasiekti norimą rezultatą.
Tada Isola naudojo paukščio atvaizdą, kad parodytų, kaip įvairūs veiksniai, valdantys įvairius kompiuterio sukurto vaizdo aspektus, yra tarsi „kauliukų metimas“. Keičiant šiuos veiksnius, pavyzdžiui, paukščio spalvą ar formą, kompiuteris gali sukurti daugybę skirtingų vaizdo variantų.
Ir jei nenaudojote vaizdo generatoriaus, yra tikimybė, kad naudojote panašius teksto modelius. Jokūbas Andreasas, MIT EECS docentas ir CSAIL pagrindinis tyrėjas, atvedė auditoriją iš vaizdų į generuojamų žodžių pasaulį, pripažindamas įspūdingą modelių, galinčių rašyti poeziją, kalbėtis ir tikslingai generuoti konkrečius dokumentus, prigimtį. valandą.
Kaip šie modeliai išreiškia dalykus, kurie atrodo kaip troškimai ir įsitikinimai? Jie išnaudoja žodžių įterpimo galią, aiškina Andreas, kur panašių reikšmių žodžiams priskiriamos skaitinės reikšmės (vektoriai) ir jie dedami į erdvę, kurioje yra daug skirtingų matmenų. Nubraižius šias reikšmes, žodžiai, turintys panašią reikšmę, šioje erdvėje atsiduria arti vienas kito. Šių vertybių artumas rodo, kaip glaudžiai susiję žodžiai yra susiję. (Pavyzdžiui, galbūt „Romeo“ paprastai yra artimas „Džuljetai“ ir pan.). Visų pirma transformatorių modeliai naudoja tai, kas vadinama „dėmesio mechanizmu“, kuris selektyviai sutelkia dėmesį į konkrečias įvesties sekos dalis, leidžiančias atlikti kelis skirtingų elementų dinaminės sąveikos ratus. Šis pasikartojantis procesas gali būti lyginamas su „svyravimu“ arba svyravimais tarp skirtingų taškų, vedančių į numatomą kitą sekos žodį.
„Įsivaizduokite, kad esate teksto rengyklėje ir viršutiniame dešiniajame kampe turite stebuklingą mygtuką, kurį galite paspausti, kad paverstumėte savo sakinius gražia ir tikslia anglų kalba. Žinoma, kurį laiką tikrinome gramatiką ir rašybą, bet dabar galime ištirti daugybę kitų būdų, kaip įtraukti šias stebuklingas funkcijas į savo programas“, – sako Andreas. „Pavyzdžiui, galime sutrumpinti ilgą ištrauką, lygiai taip pat, kaip sumažiname vaizdą vaizdų rengyklėje, kad žodžiai būtų rodomi taip, kaip norime. Mes netgi galime išplėsti ribas, padėdami vartotojams rasti šaltinius ir citatas, kai jie rengia argumentus. Tačiau turime nepamiršti, kad net geriausi modeliai šiandien toli gražu nėra pajėgūs tai padaryti patikimai, ir dar reikia daug nuveikti, kad šie šaltiniai būtų patikimi ir nešališki. Nepaisant to, yra didžiulė galimybių erdvė, kurioje galime tyrinėti ir kurti naudodami šią technologiją.
Taip pat buvo ištirtas ir kitas didelių kalbų modelių žygdarbis, kuris kartais gali jaustis gana „meta“: modeliai, rašantys kodą – tarsi mažos burtų lazdelės, išskyrus atvejus, kai vietoj burtų jie sukuria kodo eilutes, atnešdami (tam tikrą) programinę įrangą. kūrėjas svajoja gyventi. MIT EECS profesorius ir CSAIL vyriausiasis tyrėjas Armando Solar-Lezama primena tam tikrą 2014 m. istoriją, paaiškindamas, kaip tuo metu buvo padaryta didelė pažanga naudojant „ilgalaikę trumpalaikę atmintį (LSTM), kalbos vertimo technologiją, kuri galėtų gali būti naudojamas taisant nuspėjamo teksto programavimo užduotis su tiksliai apibrėžta užduotimi. Po dvejų metų pasirodė visų mėgstamiausias pagrindinis žmogaus poreikis: dėmesys, kurį pradėjo 2017 m. „Google“ dokumentas, pristatantis mechanizmą „Dėmesys yra viskas, ko reikia“. Netrukus po to buvęs CSAILeras Rishabhas Singhas priklausė komandai, kuri naudojo dėmesį tam, kad sukurtų ištisas programas palyginti paprastoms užduotims atlikti automatizuotu būdu. Netrukus po to atsirado transformatoriai, o tai paskatino mokslinių tyrimų, susijusių su teksto į tekstą atvaizdavimo panaudojimu kodui generuoti, sprogimą.
„Kodą galima paleisti, išbandyti ir analizuoti, ar nėra pažeidžiamumų, todėl jis yra labai galingas. Tačiau kodas taip pat yra labai trapus ir nedidelės klaidos gali turėti didelės įtakos jo funkcionalumui ar saugumui“, – sako Solar-Lezema. „Kitas iššūkis yra didžiulis komercinės programinės įrangos dydis ir sudėtingumas, su kuriuo gali būti sunku susidoroti net didžiausiems modeliams. Be to, skirtingų įmonių naudojamų kodavimo stilių ir bibliotekų įvairovė reiškia, kad tikslumo kartelė dirbant su kodu gali būti labai aukšta.
Tolesnėje diskusijoje, pagrįstoje klausimais ir atsakymais, Rus pradėjo vienu klausimu apie turinį: kaip galime padaryti generatyvaus AI produkciją galingesnę, įtraukdami į modelius konkrečios srities žinias ir apribojimus? „Modeliai, skirti apdoroti sudėtingus vaizdinius duomenis, tokius kaip 3-D modeliai, vaizdo įrašai ir šviesos laukai, primenantys „Star Trek“ holodeką, vis dar labai priklauso nuo domeno žinių, kad veiktų efektyviai“, – sako Isola. „Šie modeliai įtraukia projekcijos ir optikos lygtis į savo tikslines funkcijas ir optimizavimo procedūras. Tačiau didėjant duomenų prieinamumui, gali būti, kad kai kurios srities žinios gali būti pakeistos pačiais duomenimis, o tai suteiks pakankamai apribojimų mokymuisi. Nors negalime numatyti ateities, tikėtina, kad judant į priekį mums gali prireikti mažiau struktūrizuotų duomenų. Nepaisant to, domeno žinios kol kas išlieka esminiu darbo su struktūriniais duomenimis aspektu.
Grupė taip pat aptarė esminį generatyvinio turinio pagrįstumo vertinimo pobūdį. Buvo sukurta daug etalonų, rodančių, kad modeliai gali pasiekti žmogaus lygio tikslumą atliekant tam tikrus testus ar užduotis, kurioms reikia pažangių kalbinių gebėjimų. Tačiau atidžiau pažvelgus, paprasčiausiai perfrazavus pavyzdžius, modeliai gali visiškai sugesti. Nesėkmės būdų nustatymas tapo toks pat svarbus, jei ne dar svarbesnis, nei pačių modelių mokymas.
Pripažindamas pokalbio etapą – akademinę bendruomenę – „Solar-Lezama“ kalbėjo apie pažangą kuriant didelius kalbos modelius prieš gilias ir galingas pramonės kišenes. Pasak jo, akademinės bendruomenės modeliams „reikia tikrai didelių kompiuterių“, kad būtų sukurtos norimos technologijos, kurios pernelyg nesiremia pramonės parama.
Be techninių galimybių, apribojimų ir to, kaip visa tai vystosi, Rus taip pat iškėlė moralinius interesus, susijusius su gyvenimu dirbtinio intelekto sukurtame pasaulyje, susijusius su giliomis klastotėmis, dezinformacija ir šališkumu. Isola paminėjo naujesnius techninius sprendimus, orientuotus į vandenženklį, kuris galėtų padėti vartotojams subtiliai suprasti, ar vaizdas ar teksto dalis buvo sukurta mašina. „Vienas dalykų, į kuriuos reikia atkreipti dėmesį, yra tai, kad tai yra problema, kurios nepavyks išspręsti vien techniniais sprendimais. Galime suteikti erdvės sprendimams, taip pat didinti informuotumą apie šių modelių galimybes, tačiau labai svarbu, kad platesnė visuomenė žinotų, ką šie modeliai iš tikrųjų gali“, – sako Solar-Lezama. „Galų gale, tai turi būti platesnis pokalbis. Tai neturėtų apsiriboti technologais, nes tai gana didelė socialinė problema, kuri peržengia pačią technologiją.
Buvo aptartas dar vienas polinkis į pokalbių robotus, robotus ir mėgstamą tropą daugelyje distopinės popkultūros sąlygų: antropomorfizacijos viliojimas. Kodėl daugeliui būdingas natūralus polinkis į žmones panašias savybes projektuoti ant nežmogiškų būtybių? Andreasas paaiškino priešingas mąstymo mokyklas apie šiuos didelius kalbos modelius ir jų, atrodo, antžmogiškas galimybes.
„Kai kurie mano, kad tokie modeliai kaip ChatGPT jau pasiekė žmogaus intelekto lygį ir netgi gali būti sąmoningi, – sakė Andreasas, – tačiau iš tikrųjų šiems modeliams vis dar trūksta tikrų žmogiškųjų gebėjimų suvokti ne tik niuansus, bet kartais jie ir elgiasi itin neįprastai. ryškūs, keisti, nežmoniški būdai. Kita vertus, kai kurie teigia, kad šie modeliai yra tik lėkštos modelio atpažinimo priemonės, kurios negali sužinoti tikrosios kalbos reikšmės. Tačiau šis požiūris taip pat neįvertina supratimo, kurį jie gali įgyti iš teksto, lygis. Nors turėtume būti atsargūs pervertindami jų galimybes, taip pat neturėtume pamiršti galimos žalos, kurią nuvertinus jų poveikis. Galų gale turėtume žiūrėti į šiuos modelius nuolankiai ir pripažinti, kad dar reikia daug sužinoti apie tai, ką jie gali ir gali nedaryti.”
