Duomenys yra naujas dirvožemis, ir šioje derlingoje naujoje žemėje MIT mokslininkai sodina ne tik pikselius. Naudodama sintetinius vaizdus mašininio mokymosi modeliams mokyti, mokslininkų komanda neseniai pranoko rezultatus, gautus taikant tradicinius „realaus vaizdo“ mokymo metodus.
Šio metodo esmė yra sistema, vadinama StableRep, kuri nenaudoja tik sintetinių vaizdų; jis juos generuoja naudodamas itin populiarius teksto į vaizdą modelius, tokius kaip „Stable Diffusion“. Tai tarsi pasaulių kūrimas žodžiais.
Taigi, kas yra slaptame „StableRep“ padaže? Strategija, vadinama „daugialypiu teigiamu kontrastiniu mokymusi“.
„Mes mokome modelį, kad sužinotume daugiau apie aukšto lygio sąvokas per kontekstą ir dispersiją, o ne tik pateikdami duomenis“, – sako Lijie Fan, MIT elektros inžinerijos doktorantė, MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) filialas. ), vadovaujantis darbo tyrėjas. „Kai keli vaizdai, visi sukurti iš to paties teksto, traktuojami kaip to paties pagrindinio dalyko vaizdavimas, modelis gilinasi į vaizdų sąvokas, tarkime, objektą, o ne tik jų pikselius.
Taikant šį metodą, keli vaizdai, sukurti iš identiškų teksto raginimų, laikomi teigiamomis poromis, suteikiančiomis papildomos informacijos treniruočių metu, ne tik suteikiant daugiau įvairovės, bet ir nurodant regėjimo sistemai, kurie vaizdai yra panašūs ir kurie skiriasi. Pažymėtina, kad „StableRep“ pranoko aukščiausio lygio modelių, parengtų naudojant tikrus vaizdus, pvz., „SimCLR“ ir „CLIP“, meistriškumą dideliuose duomenų rinkiniuose.
„Nors „StableRep“ padeda sušvelninti duomenų gavimo mašininio mokymosi iššūkius, ji taip pat žengia žingsnį į naują AI mokymo metodų erą. Galimybė pagal komandą gaminti didelio kalibro, įvairius sintetinius vaizdus gali padėti sumažinti sudėtingas išlaidas ir išteklius“, – sako Fanas.
Duomenų rinkimo procesas niekada nebuvo paprastas. Dešimtajame dešimtmetyje mokslininkai turėjo rankiniu būdu fiksuoti nuotraukas, kad surinktų objektų ir veidų duomenų rinkinius. 2000-aisiais žmonės ieškojo duomenų internete. Tačiau šie neapdoroti, neapdoroti duomenys dažnai turėjo neatitikimų, palyginti su realaus pasaulio scenarijais, ir atspindėjo visuomenės šališkumą, o tai rodo iškreiptą tikrovės vaizdą. Duomenų rinkinių valymo žmogaus įsikišimu užduotis yra ne tik brangi, bet ir nepaprastai sudėtinga. Tačiau įsivaizduokite, kad šį sunkų duomenų rinkimą būtų galima paversti tokiu paprastu dalyku, kaip komandos davimas natūralia kalba.
Pagrindinis „StableRep“ triumfo aspektas yra generatyvaus modelio „orientavimo skalės“ koregavimas, užtikrinantis subtilią pusiausvyrą tarp sintetinių vaizdų įvairovės ir tikslumo. Tiksliai sureguliuoti sintetiniai vaizdai, naudojami treniruojant šiuos savarankiškai prižiūrimus modelius, buvo tokie pat veiksmingi, o gal net veiksmingesni, nei tikri vaizdai.
Žengiant žingsnį į priekį, prie mišinio buvo pridėta kalbos priežiūra ir sukurtas patobulintas variantas: StableRep+. Apmokytas naudojant 20 milijonų sintetinių vaizdų, „StableRep+“ ne tik pasiekė puikų tikslumą, bet ir parodė nepaprastą efektyvumą, palyginti su CLIP modeliais, paruoštais naudojant stulbinančius 50 milijonų tikrų vaizdų.
Tačiau kelias į priekį neapsieina be duobių. Tyrėjai atvirai atkreipia dėmesį į keletą apribojimų, įskaitant dabartinį lėtą vaizdų generavimo tempą, semantinius teksto raginimų ir gaunamų vaizdų neatitikimus, galimą šališkumo padidėjimą ir vaizdų priskyrimo sudėtingumą – visa tai būtina spręsti siekiant ateities pažangos. Kita problema yra ta, kad „StableRep“ pirmiausia reikia parengti generacinį modelį naudojant didelio masto tikrus duomenis. Komanda pripažįsta, kad pradėti nuo realių duomenų tebėra būtinybė; tačiau kai turite gerą generacinį modelį, galite jį panaudoti naujoms užduotims, pvz., mokymo atpažinimo modeliams ir vaizdinėms vaizdinėms.
Komanda pažymi, kad jie neaplenkė būtinybės pradėti nuo tikrų duomenų; tiesiog kai turėsite gerą generacinį modelį, galėsite jį panaudoti naujoms užduotims, pvz., mokymo atpažinimo modeliams ir vaizdinėms vaizdinėms.
Nors „StableRep“ siūlo gerą sprendimą, mažindamas priklausomybę nuo didžiulių realių vaizdų rinkinių, jis iškelia susirūpinimą dėl paslėptų paklaidų nekurtuose duomenims, naudojamuose šiems teksto į vaizdą modeliams. Teksto raginimų pasirinkimas, neatsiejamas nuo vaizdo sintezės proceso, nėra visiškai laisvas nuo šališkumo, „nurodantis esminį kruopštaus teksto atrankos ar galimo žmogaus kuravimo vaidmenį“, sako Fan.
„Naudodami naujausius teksto į vaizdą modelius, įgijome precedento neturinčią vaizdų generavimo kontrolę, leidžiančią iš vienos teksto įvesties gauti įvairių vaizdų. Tai pranoksta realaus pasaulio vaizdų kolekciją efektyvumu ir universalumu. Tai ypač naudinga atliekant specializuotas užduotis, pavyzdžiui, subalansuojant vaizdų įvairovę atpažįstant ilgą uodegą, tai yra praktiškas priedas prie tikrų vaizdų naudojimo treniruotėms“, – sako Fan. „Mūsų darbas reiškia žingsnį į priekį vizualinio mokymosi srityje, siekiant pasiūlyti ekonomiškai efektyvias mokymo alternatyvas, kartu pabrėžiant poreikį nuolat gerinti duomenų kokybę ir sintezę.
„Viena svajonė apie generatyvųjį modelių mokymąsi jau seniai buvo galimybė generuoti duomenis, naudingus diskriminacinio modelio mokymui“, – sako „Google DeepMind“ tyrėjas ir Toronto universiteto kompiuterių mokslų profesorius Davidas Fleetas, kuris nedalyvavo šiame straipsnyje. „Nors matėme kai kuriuos gyvybės ženklus, sapnas buvo sunkiai suprantamas, ypač didelio masto sudėtingose srityse, pavyzdžiui, didelės raiškos vaizdais. Šis dokumentas, mano žiniomis, pirmą kartą pateikia įtikinamų įrodymų, kad svajonė tampa realybe. Jie rodo, kad kontrastingas mokymasis iš didžiulių sintetinių vaizdo duomenų kiekių gali sukurti vaizdus, pralenkiančius tuos, kurie išmokti iš realių duomenų, ir gali pagerinti daugybę tolesnių regėjimo užduočių.
Prie Fan prisijungia Yonglong Tian PhD ’22 kaip pagrindiniai šio straipsnio autoriai, taip pat MIT elektrotechnikos ir kompiuterių mokslo docentas bei CSAIL pagrindinis tyrėjas Phillipas Isola; „Google“ tyrėjas ir „OpenAI“ techninio personalo narys Huiwen Chang; ir „Google“ personalo mokslininkas Dilipas Krishnanas. Komanda pristatys „StableRep“ 2023 m. Neurinių informacijos apdorojimo sistemų (NeurIPS) konferencijoje Naujajame Orleane.

