Mašinos mokymas atpažinti žmogaus veiksmus turi daug galimų pritaikymų, pavyzdžiui, automatiškai aptikti statybvietėje krintančius darbuotojus arba suteikti galimybę išmaniajam namų robotui interpretuoti vartotojo gestus.
Norėdami tai padaryti, mokslininkai moko mašininio mokymosi modelius, naudodami didžiulius vaizdo įrašų duomenų rinkinius, kuriuose rodomi žmonės, atliekantys veiksmus. Tačiau ne tik brangu ir sunku surinkti ir pažymėti milijonus ar milijardus vaizdo įrašų, bet ir klipuose dažnai yra neskelbtinos informacijos, pvz., žmonių veidai ar valstybiniai numeriai. Šių vaizdo įrašų naudojimas taip pat gali pažeisti autorių teisių arba duomenų apsaugos įstatymus. Ir tai daroma prielaida, kad vaizdo įrašų duomenys yra viešai prieinami – daugelis duomenų rinkinių priklauso įmonėms ir jais negalima laisvai naudotis.
Taigi mokslininkai kreipiasi į sintetinius duomenų rinkinius. Juos sukuria kompiuteris, kuriame naudojami 3D scenų, objektų ir žmonių modeliai, kad būtų galima greitai sukurti daugybę skirtingų konkrečių veiksmų klipų – be galimų autorių teisių problemų ar etinių problemų, susijusių su tikrais duomenimis.
Bet ar sintetiniai duomenys yra tokie pat „geri“ kaip tikri? Kaip gerai veikia modelis, parengtas naudojant šiuos duomenis, kai jo prašoma klasifikuoti tikrus žmogaus veiksmus? MIT, MIT-IBM Watson AI Lab ir Bostono universiteto mokslininkų komanda bandė atsakyti į šį klausimą. Jie sukūrė sintetinį duomenų rinkinį iš 150 000 vaizdo klipų, kuriuose užfiksuoti įvairūs žmogaus veiksmai, kuriuos panaudojo mašininio mokymosi modeliams mokyti. Tada jie parodė šiems modeliams šešis realaus pasaulio vaizdo įrašų duomenų rinkinius, kad pamatytų, kaip gerai jie gali išmokti atpažinti veiksmus tuose klipuose.
Tyrėjai išsiaiškino, kad vaizdo įrašų, kuriuose yra mažiau fono objektų, sintetiniai modeliai veikė dar geriau nei modeliai, parengti remiantis tikrais duomenimis.
Šis darbas galėtų padėti mokslininkams naudoti sintetinius duomenų rinkinius taip, kad modeliai pasiektų didesnį realaus pasaulio užduočių tikslumą. Tai taip pat galėtų padėti mokslininkams nustatyti, kurios mašininio mokymosi programos galėtų būti tinkamiausios mokymuisi naudojant sintetinius duomenis, siekiant sumažinti kai kuriuos etikos, privatumo ir autorių teisių susirūpinimą dėl tikrų duomenų rinkinių naudojimo.
„Galutinis mūsų tyrimo tikslas yra pakeisti realių duomenų išankstinį mokymą sintetinių duomenų paruošimu. Veiksmo sukūrimas naudojant sintetinius duomenis kainuoja, bet kai tai padarysite, pakeisdami pozą, apšvietimą ir pan. galėsite sukurti neribotą skaičių vaizdų ar vaizdo įrašų. Tai yra sintetinių duomenų grožis“, – sako Rogerio. Ferisas, pagrindinis mokslininkas ir MIT-IBM Watson AI laboratorijos vadovas ir šio tyrimo detaliai aprašančio dokumento bendraautoris.
Straipsnio autorius yra pagrindinis autorius Yo-whan „John” Kim ’22; Aude Oliva, MIT Schwarzman skaičiavimo koledžo strateginių pramonės įsipareigojimų direktorius, MIT-IBM Watson AI laboratorijos direktorius ir vyresnysis tyrėjas Kompiuterių mokslo ir dirbtinio intelekto laboratorijoje (CSAIL); ir dar septyni. Tyrimas bus pristatytas Neuroninių informacijos apdorojimo sistemų konferencijoje.
Sintetinio duomenų rinkinio kūrimas
Tyrėjai pradėjo rinkdami naują duomenų rinkinį, naudodami tris viešai prieinamus sintetinių vaizdo įrašų duomenų rinkinius, kuriuose užfiksuoti žmogaus veiksmai. Jų duomenų rinkinyje, pavadintame „Synthetic Action Pre-Training and Transfer“ (SynAPT), buvo 150 veiksmų kategorijų ir 1000 vaizdo klipų kiekvienoje kategorijoje.
Jie pasirinko kuo daugiau veiksmų kategorijų, pvz., žmonių, mojuojančių ar krentančių ant grindų, atsižvelgiant į klipų, kuriuose buvo švarių vaizdo duomenų, prieinamumą.
Kai duomenų rinkinys buvo paruoštas, jie naudojo jį trims mašininio mokymosi modeliams iš anksto išmokyti atpažinti veiksmus. Išankstinis mokymas apima vienos užduoties modelio mokymą, kad būtų galima pradėti mokytis kitų užduočių. Įkvėptas žmonių mokymosi būdo – mes pakartotinai naudojame senas žinias, kai išmokstame ko nors naujo – iš anksto parengtas modelis gali naudoti jau išmoktus parametrus, kad padėtų greičiau ir efektyviau išmokti naują užduotį su nauju duomenų rinkiniu.
Jie išbandė iš anksto paruoštus modelius naudodami šešis tikrų vaizdo klipų duomenų rinkinius, kurių kiekvienas užfiksavo veiksmų klases, kurios skyrėsi nuo mokymo duomenų.
Tyrėjai nustebo pamatę, kad visi trys sintetiniai modeliai keturiuose iš šešių duomenų rinkinių pranoko modelius, parengtus naudojant tikrus vaizdo įrašus. Jų tikslumas buvo didžiausias duomenų rinkiniuose, kuriuose buvo vaizdo įrašų su „mažu scenos objekto poslinkiu“.
Mažas scenos objekto poslinkis reiškia, kad modelis negali atpažinti veiksmo žiūrėdamas į foną ar kitus scenos objektus – jis turi sutelkti dėmesį į patį veiksmą. Pavyzdžiui, jei modeliui pavesta klasifikuoti nardymo pozas vaizdo klipuose, kuriuose žmonės neria į baseiną, jis negali atpažinti pozos žiūrėdamas į vandenį ar plyteles ant sienos. Norint klasifikuoti veiksmą, dėmesys turi būti sutelktas į asmens judesį ir padėtį.
„Vaizdo įrašuose su mažu scenos objekto šališkumu laikinoji veiksmų dinamika yra svarbesnė nei objektų išvaizda ar fonas, ir atrodo, kad tai gerai užfiksuota naudojant sintetinius duomenis“, – sako Ferisas.
„Didelis scenos objektų šališkumas iš tikrųjų gali būti kliūtis. Modelis gali klaidingai klasifikuoti veiksmą žiūrėdamas į objektą, o ne į patį veiksmą. Tai gali suklaidinti modelį“, – aiškina Kim.
Našumo didinimas
Remdamiesi šiais rezultatais, mokslininkai į būsimą darbą nori įtraukti daugiau veiksmo klasių ir papildomų sintetinių vaizdo platformų, galiausiai sukurdami modelių, kurie buvo paruošti naudojant sintetinius duomenis, katalogą, sako bendraautorius Rameswaras Panda, MIT tyrėjas. -IBM Watson AI Lab.
„Mes norime sukurti modelius, kurių našumas labai panašus arba netgi geresnis nei esami modeliai literatūroje, tačiau nesame susieti su jokiais iš šių šališkumo ar saugumo problemų“, – priduria jis.
Jie taip pat nori derinti savo darbą su tyrimais, kuriais siekiama sukurti tikslesnius ir tikroviškesnius sintetinius vaizdo įrašus, kurie galėtų pagerinti modelių našumą, sako SouYoung Jin, bendraautorius ir CSAIL postdoc. Ji taip pat domisi, kaip modeliai gali mokytis kitaip, kai yra mokomi naudoti sintetinius duomenis.
„Naudojame sintetinius duomenų rinkinius, kad išvengtume privatumo problemų arba kontekstinio ar socialinio šališkumo, bet ko iš tikrųjų išmoksta modelis? Ar jis išmoksta kažko nešališko? ji sako.
Dabar, kai jie įrodė šį sintetinių vaizdo įrašų panaudojimo potencialą, jie tikisi, kad kiti tyrėjai remsis savo darbu.
„Nepaisant to, kad gerai anotuotų sintetinių duomenų gavimas kainuoja pigiau, šiuo metu neturime duomenų rinkinio, kurio mastelis konkuruotų su didžiausiais anotuotais duomenų rinkiniais su tikrais vaizdo įrašais. Aptardami įvairias išlaidas ir rūpesčius realiais vaizdo įrašais ir parodydami sintetinių duomenų veiksmingumą, tikimės paskatinti pastangas šia kryptimi“, – priduria Bostono universiteto (BU) magistrantė Samarth Mishra.
Papildomi bendraautoriai yra Hilde Kuehne, Vokietijos Goethe universiteto kompiuterių mokslų profesorė ir MIT-IBM Watson AI laboratorijos susijusi profesorė; Leonidas Karlinskis, MIT-IBM Watson AI laboratorijos mokslo darbuotojas; Venkatesh Saligrama, BU Elektros ir kompiuterių inžinerijos katedros profesorius; ir Kate Saenko, BU Informatikos katedros docentė ir MIT-IBM Watson AI laboratorijos konsultantė.
Šį tyrimą palaikė gynybos pažangių tyrimų projektų agentūra LwLL, taip pat MIT-IBM Watson AI Lab ir jos narės „Nexplore“ ir „Woodside“.

