MIT mokslininkai sukūrė naują anotuotą sintetinį vaizdų duomenų rinkinį, kuriame vaizduojami įvairūs scenarijai, kurie gali būti naudojami siekiant padėti mašininio mokymosi modeliams suprasti scenos sąvokas. Nuotraukoje pavaizduota scena iš sintetinių duomenų rinkinio, o išsamus teksto aprašymas sako: „Šioje scenoje yra dėžutė ir vienas žmogus. Jie yra pilies griuvėsiuose su senais akmenimis. Dėžė yra žmogaus kairėje. Dėžutė yra priešais žmogų. Žmogus šuolis sukasi. Žmogus yra vyriškos lyties. Žmogus dėvi juodus marškinėlius ir tamsiai mėlynus džinsus.” Galingi mašininio mokymosi algoritmai, žinomi kaip regėjimo ir kalbos modeliai, mokantys suderinti tekstą su vaizdais, davė puikių rezultatų, kai buvo paprašyta generuoti antraštes arba apibendrinti vaizdo įrašus.
Nors šie modeliai puikiai identifikuoja objektus, jiems dažnai sunku suprasti sąvokas, pvz., objekto atributus ar daiktų išdėstymą scenoje. Pavyzdžiui, vizijos ir kalbos modelis gali atpažinti puodelį ir stalą vaizde, bet nesuvokti, kad puodelis stovi ant stalo.
Mokslininkai iš MIT, MIT-IBM Watson AI Lab ir kitur pademonstravo naują techniką, kuri naudoja kompiuterinius duomenis, padedančius regėjimo ir kalbos modeliams įveikti šį trūkumą.
Tyrėjai sukūrė sintetinį vaizdų duomenų rinkinį, kuriame vaizduojami įvairūs scenarijai, objektų išdėstymas ir žmogaus veiksmai kartu su išsamiais teksto aprašymais. Jie naudojo šį anotuotą duomenų rinkinį vizijos ir kalbos modeliams „pataisyti“, kad galėtų efektyviau išmokti sąvokas. Jų technika užtikrina, kad šie modeliai vis tiek gali tiksliai prognozuoti, kai mato tikrus vaizdus.
Išbandę koncepcijos supratimo modelius, mokslininkai nustatė, kad jų technika padidino tikslumą iki 10%. Tai galėtų patobulinti sistemas, kurios automatiškai subtitrus vaizdo įrašams arba patobulinti modelius, kurie natūralia kalba pateikia atsakymus į klausimus apie vaizdus, naudojant programas tokiose srityse kaip el. prekyba ar sveikatos priežiūra.
„Šiuo darbu mes peržengiame daiktavardžių ribas ta prasme, kad ne tik objektų pavadinimus, bet ir daugiau semantinės objekto sampratos ir visko aplink jį. Mūsų idėja buvo ta, kad mašininio mokymosi modelis mato objektus. daugelyje skirtingų išdėstymų jis geriau supras, kaip išdėstymas yra svarbus scenoje“, – sako Khaledas Shehada, Elektros inžinerijos ir informatikos katedros magistrantas ir straipsnio apie šią techniką bendraautoris.
Shehada parašė straipsnį kartu su pagrindine autorė Paola Cascante-Bonilla, informatikos magistrantė Rice universitete; Aude Oliva, MIT Schwarzman skaičiavimo koledžo strateginių pramonės įsipareigojimų direktorius, MIT-IBM Watson AI laboratorijos direktorius ir vyresnysis tyrėjas Kompiuterių mokslo ir dirbtinio intelekto laboratorijoje (CSAIL); vyresnysis autorius Leonidas Karlinskis, MIT-IBM Watson AI laboratorijos mokslo darbuotojas; ir kiti iš MIT, MIT-IBM Watson AI Lab, Georgia Tech, Rice universiteto, École des Ponts, Weizmann mokslo instituto ir IBM tyrimų. Pranešimas bus pristatytas Tarptautinėje kompiuterinės vizijos konferencijoje, vyksiančioje Paryžiuje spalio 2–6 d.
Dėmesys objektams
Regėjimo ir kalbos modeliai paprastai išmoksta identifikuoti objektus scenoje ir gali nepaisyti objekto atributų, tokių kaip spalva ir dydis, arba padėties santykių, pvz., kuris objektas yra ant kito objekto.
Taip yra dėl metodo, kuriuo šie modeliai dažnai mokomi, vadinamo kontrastiniu mokymusi. Šis mokymo metodas apima modelio privertimą numatyti vaizdų ir teksto atitikimą. Lyginant natūralius vaizdus, kiekvienos scenos objektai dažniausiai sukelia ryškiausius skirtumus. (Galbūt viename paveikslėlyje pavaizduotas arklys lauke, o antrame – burlaivis ant vandens.)
„Kiekvieną vaizdą galima išskirtinai apibrėžti vaizde esančiais objektais. Taigi, kai atliekate kontrastinį mokymąsi, problemą išspręstumėte vien sutelkus dėmesį į daiktavardžius ir objektus. Kodėl modelis turėtų daryti ką nors kitaip?” sako Karlinskis.
Tyrėjai siekė sušvelninti šią problemą naudodami sintetinius duomenis, kad patikslintų vizijos ir kalbos modelį. Tikslaus derinimo procesas apima modelio, kuris jau buvo išmokytas pagerinti konkrečią užduotį, koregavimą.
Jie naudojo kompiuterį, kad automatiškai sukurtų sintetinius vaizdo įrašus su įvairia 3D aplinka ir objektais, tokiais kaip baldai ir bagažas, ir pridėjo žmonių avatarus, kurie sąveikavo su objektais.
Naudodami atskirus šių vaizdo įrašų kadrus, jie sugeneravo beveik 800 000 fotorealistiškų vaizdų ir kiekvieną suporavo su išsamia antrašte. Tyrėjai sukūrė metodiką, kaip anotuoti kiekvieną vaizdo aspektą, kad būtų aiškiai ir nuosekliai užfiksuoti objekto atributai, padėties santykiai ir žmogaus bei objekto sąveika tankiuose antraštėse.
Kadangi tyrėjai kūrė vaizdus, jie galėjo kontroliuoti objektų išvaizdą ir padėtį, taip pat žmonių avatarų lytį, drabužius, pozas ir veiksmus.
„Sintetiniai duomenys suteikia daug įvairovės. Turėdami tikrus vaizdus, galite neturėti daug dramblių kambaryje, bet su sintetiniais duomenimis, jei norite, kambaryje su žmogumi iš tikrųjų galėtumėte turėti rožinį dramblį”, – sakė Cascante. – sako Bonilla.
Sintetiniai duomenys turi ir kitų privalumų. Juos generuoti pigiau nei tikrus duomenis, tačiau vaizdai yra labai fotorealistiški. Jie taip pat išsaugo privatumą, nes vaizduose nerodomi jokie tikri žmonės. Kadangi duomenis kompiuteris sukuria automatiškai, jie gali būti greitai generuojami didžiuliais kiekiais.
Naudodami skirtingus fotoaparato požiūrio taškus arba šiek tiek pakeisdami objektų padėtis ar atributus, mokslininkai sukūrė duomenų rinkinį su daug įvairesniu scenarijų įvairove, nei būtų galima rasti natūraliame duomenų rinkinyje.
Sureguliuokite, bet nepamirškite
Tačiau tiksliai suderinus modelį su sintetiniais duomenimis, kyla pavojus, kad modelis gali „pamiršti“ tai, ko išmoko, kai iš pradžių buvo apmokytas naudojant tikrus duomenis.
Tyrėjai taikė keletą metodų, kad išvengtų šios problemos, pavyzdžiui, pakoregavo sintetinius duomenis, kad spalvos, apšvietimas ir šešėliai labiau atitiktų natūralių vaizdų spalvas. Jie taip pat pakoregavo modelio vidinį darbą, kad dar labiau sumažintų užmaršumą.
Jų sintetinis duomenų rinkinys ir tikslinimo strategija pagerino populiarių regėjimo ir kalbos modelių gebėjimą tiksliai atpažinti sąvokas iki 10%. Kartu modeliai nepamiršo to, ko jau buvo išmokę.
Dabar, kai jie parodė, kaip sintetiniai duomenys gali būti naudojami šiai problemai išspręsti, mokslininkai nori nustatyti būdus, kaip pagerinti šių duomenų vizualinę kokybę ir įvairovę, taip pat pagrindinę fiziką, dėl kurios sintetinės scenos atrodo tikroviškos. Be to, jie planuoja išbandyti mastelio keitimo ribas ir ištirti, ar modelio tobulinimas pradeda plisti naudojant didesnius ir įvairesnius sintetinių duomenų rinkinius.
Daugiau informacijos: Peržengti daiktavardžių ribas naudojant vizijos ir kalbos modelius naudojant sintetinius duomenis. olivalab.mit.edu/Papers/going_beyond_nouns.pdf
Ši istorija iš naujo paskelbta „MIT News“ (web.mit.edu/newsoffice/), populiarios svetainės, kurioje pateikiamos naujienos apie MIT tyrimus, inovacijas ir mokymą, dėka.
Citata: Pagalba kompiuterinės regos ir kalbos modeliams suprasti, ką mato (2023 m., rugsėjo 13 d.), gauta 2023 m. rugsėjo 13 d. iš https://techxplore.com/news/2023-09-vision-language.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.