Internetas turėjo kolektyvinės geros nuotaikos momentą, kai buvo pristatytas DALL-E – dirbtinio intelekto vaizdų generatorius, įkvėptas menininko Salvadoro Dali ir mielo roboto WALL-E, kuris naudoja natūralią kalbą, kad sukurtų bet kokį paslaptingą ir gražų vaizdą, kurio trokšta jūsų širdis. Matant atspausdintus įvestis, pvz., „besišypsantis gopheris, laikantis ledų kūgį“, akimirksniu atgyja pasaulis.
Nelengva užduotis, kad ekrane iššoktų minėtas besišypsantis goferis ir atributai. DALL-E 2 naudoja tai, kas vadinama difuzijos modeliu, kai bando užkoduoti visą tekstą į vieną aprašymą, kad sukurtų vaizdą. Tačiau kai tekste yra daug daugiau detalių, sunku visa tai užfiksuoti viename aprašyme. Be to, nors jie yra labai lankstūs, jiems kartais sunku suprasti tam tikrų sąvokų sudėtį, pavyzdžiui, supainioti atributus ar ryšius tarp skirtingų objektų.
Siekdami sukurti sudėtingesnius vaizdus ir geriau juos suprasti, mokslininkai iš MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) sudarė tipinio modelio struktūrą kitu kampu: kartu sudėjo modelių seriją, kur jie visi bendradarbiauja, kad sukurtų norimus vaizdus, užfiksuojančius kelis skirtingus aspektus, kaip reikalaujama įvesties tekste arba etiketėse. Norint sukurti vaizdą su dviem komponentais, tarkime, aprašytais dviem aprašymo sakiniais, kiekvienas modelis turėtų spręsti tam tikrą vaizdo komponentą.
Iš pažiūros stebuklingi vaizdų generavimo modeliai veikia siūlydami keletą kartotinių patobulinimų, kad būtų pasiektas norimas vaizdas. Pradedama nuo „blogo“ paveikslėlio, o po to palaipsniui jį tobulina, kol taps pasirinktu vaizdu. Kartu sudarydami kelis modelius, jie kartu patobulina išvaizdą kiekviename žingsnyje, todėl gaunamas vaizdas, kuriame atsispindi visos kiekvieno modelio savybės. Bendradarbiaudami keliems modeliams, sukurtuose vaizduose galite gauti daug kūrybiškesnių derinių.
Paimkime, pavyzdžiui, raudoną sunkvežimį ir žalią namą. Modelis supainios raudonojo sunkvežimio ir žaliojo namo sąvokas, kai šie sakiniai bus labai sudėtingi. Įprastas generatorius, pvz., DALL-E 2, gali pagaminti žalią sunkvežimį ir raudoną namą, todėl jis pakeis šias spalvas. Komandos metodas gali susidoroti su tokio tipo atributų susiejimu su objektais, o ypač kai yra keletas dalykų rinkinių, jis gali tiksliau tvarkyti kiekvieną objektą.
„Modelis gali efektyviai modeliuoti objektą pozicijų ir santykių aprašymų, o tai yra sudėtinga esamiems vaizdų generavimo modeliams. Pavyzdžiui, pastatykite objektą ir kubą į tam tikrą padėtį, o sferą į kitą. „DALL-E 2“ gerai sukuria natūralius vaizdus, tačiau kartais jam sunku suprasti objektų ryšius“, – sako MIT CSAIL doktorantas ir vienas iš pagrindinių autorių Shuang Li. „Be meno ir kūrybiškumo, galbūt galėtume panaudoti savo modelį mokymui. Jei norite liepti vaikui uždėti kubą ant sferos viršaus, ir jei tai pasakysime kalba, jam gali būti sunku suprasti. Tačiau mūsų modelis gali sukurti vaizdą ir jį parodyti. Composable Diffusion – komandos modelis – naudoja sklaidos modelius kartu su kompoziciniais operatoriais, kad derintų teksto aprašymus be tolesnio mokymo. Komandos metodas tiksliau fiksuoja teksto detales nei originalus sklaidos modelis, kuris tiesiogiai koduoja žodžius kaip vieną ilgą sakinį. Pavyzdžiui, atsižvelgiant į „rožinį dangų“ IR „mėlyną kalną horizonte“ IR „vyšnių žiedus priešais kalną“, komandos modelis galėjo tiksliai sukurti tą vaizdą, o pradinis difuzijos modelis padarė dangų mėlyną ir viskas priešais kalnus rausva.
„Faktas, kad mūsų modelį galima sudaryti, reiškia, kad vienu metu galite išmokti skirtingas modelio dalis. Pirmiausia galite išmokti objektą, esantį ant kito, tada išmokti objektą, esantį kito dešinėje, o tada išmokti kažką, kas yra kito kairėje“, – sako vienas iš vadovų ir MIT CSAIL doktorantas Yilun Du. „Kadangi galime juos sudaryti kartu, galite įsivaizduoti, kad mūsų sistema leidžia mums palaipsniui mokytis kalbos, santykių ar žinių, o tai, mūsų nuomone, yra gana įdomi ateities darbo kryptis.“
Nors jis demonstravo meistriškumą kurdamas sudėtingus, fotorealistiškus vaizdus, jis vis tiek susidūrė su iššūkiais, nes modelis buvo apmokytas naudojant daug mažesnį duomenų rinkinį nei DALL-E 2, todėl buvo objektų, kurių jis tiesiog negalėjo užfiksuoti.
Dabar, kai Composable Diffusion gali veikti naudojant generatyvius modelius, tokius kaip DALL-E 2, mokslininkai nori ištirti nuolatinį mokymąsi kaip galimą kitą žingsnį. Atsižvelgiant į tai, kad objektų ryšiams paprastai pridedama daugiau, jie nori pamatyti, ar difuzijos modeliai gali pradėti „mokytis“ nepamirštant anksčiau įgytų žinių – į vietą, kur modelis gali sukurti vaizdus ir su ankstesnėmis, ir su naujomis žiniomis.
„Šis tyrimas siūlo naują metodą, kaip sudaryti sąvokas teksto į vaizdą generuojant ne sujungiant jas, kad susidarytų raginimas, o skaičiuojant kiekvienos sąvokos balus ir juos sudarant naudojant konjunkciją ir neigimą. operatorių“, – sako Markas Chenas, DALL-E 2 kūrėjas ir OpenAI mokslininkas. „Tai puiki idėja, kuri panaudoja energija pagrįstą difuzijos modelių interpretaciją, kad būtų galima pritaikyti senas idėjas apie kompoziciją naudojant energija pagrįstus modelius. Taikant metodą taip pat galima naudoti gaires be klasifikatorių, ir stebėtina, kad jis viršija GLIDE bazinę liniją pagal įvairius kompozicijos etalonus ir gali kokybiškai sukurti labai skirtingų tipų vaizdų kartas.“
„Žmonės gali įvairiais būdais kurti scenas, kuriose yra įvairių elementų, tačiau ši užduotis yra sudėtinga kompiuteriams“, – sako Bryanas Russelis, „Adobe Systems“ mokslininkas. „Šiame darbe siūloma elegantiška formuluotė, kuri aiškiai sudaro difuzijos modelių rinkinį, kad būtų sukurtas vaizdas, naudojant sudėtingą natūralios kalbos raginimą. Nan Liu, informatikos magistrantūros studentas iš Ilinojaus universiteto Urbana-Champaign ir MIT profesoriai Antonio Torralba ir Joshua B. Tenenbaum. Darbus jie pristatys 2022 Europos kompiuterinės vizijos konferencijoje.
Tyrimą palaikė Raytheon BBN Technologies Corp., Mitsubishi Electric Research Laboratory ir DEVCOM Army Research Laboratory.