Kad mašininio mokymosi modelis galėtų atlikti užduotį, pvz., nustatyti vėžį medicininiuose vaizduose, modelis turi būti apmokytas. Vaizdų klasifikavimo modelių mokymas paprastai apima milijonų pavyzdžių vaizdų, surinktų į didžiulį duomenų rinkinį, rodymą.
Tačiau naudojant tikrus vaizdo duomenis gali kilti praktinių ir etinių problemų: vaizdai gali prieštarauti autorių teisių įstatymams, pažeisti žmonių privatumą arba būti šališki tam tikros rasės ar etninės grupės atžvilgiu. Norėdami išvengti šių spąstų, mokslininkai gali naudoti vaizdų generavimo programas, kad sukurtų sintetinius duomenis modelio mokymui. Tačiau šie metodai yra riboti, nes norint sukurti vaizdų generavimo programą, kuri gali sukurti efektyvius mokymo duomenis, dažnai reikia ekspertų žinių.
Mokslininkai iš MIT, MIT-IBM Watson AI Lab ir kitur laikėsi kitokio požiūrio. Užuot kūrę pritaikytas vaizdų generavimo programas konkrečiai mokymo užduočiai, jie surinko 21 000 viešai prieinamų programų iš interneto duomenų rinkinį. Tada jie panaudojo šią didelę pagrindinių vaizdų generavimo programų kolekciją, kad išmokytų kompiuterinio regėjimo modelį.
Šios programos sukuria įvairius vaizdus, kurie rodomos paprastos spalvos ir tekstūros. Tyrėjai nekūrė ir nekeitė programų, kurių kiekvieną sudarė tik kelios kodo eilutės.
Modeliai, kuriuos jie mokė naudodami šį didelį programų duomenų rinkinį, vaizdus klasifikavo tiksliau nei kiti sintetiniai modeliai. Ir nors jų modeliai buvo prastesni nei apmokyti naudojant tikrus duomenis, tyrėjai parodė, kad padidinus vaizdų programų skaičių duomenų rinkinyje taip pat padidėjo modelio našumas, atskleidžiant kelią į didesnį tikslumą.
„Pasirodo, kad naudoti daugybę nekuruojamų programų iš tikrųjų yra geriau nei naudoti nedidelį programų, kuriomis žmonės turi manipuliuoti, rinkinį. Duomenys yra svarbūs, bet mes parodėme, kad be tikrų duomenų galite nueiti gana toli“, – sako Manel Baradad, elektros inžinerijos ir kompiuterių mokslų (EECS) absolventas, dirbantis Kompiuterių mokslo ir dirbtinio intelekto laboratorijoje (CSAIL) ir pagrindinis knygos autorius. šią techniką aprašantį dokumentą.
Tarp bendraautorių yra Tongzhou Wang, CSAIL EECS absolventas; Rogerio Feris, pagrindinis mokslininkas ir MIT-IBM Watson AI laboratorijos vadovas; Antonio Torralba, Delta Electronics Elektros inžinerijos ir kompiuterių mokslo profesorius ir CSAIL narys; ir vyresnysis autorius Phillip Isola, EECS ir CSAIL docentas; kartu su kitais JPMorgan Chase Bank ir Xyla, Inc. Tyrimas bus pristatytas Neurinės informacijos apdorojimo sistemų konferencijoje.
Permąstyti išankstinį mokymą
Mašininio mokymosi modeliai paprastai yra paruošti iš anksto, o tai reiškia, kad jie pirmiausia mokomi naudoti vieną duomenų rinkinį, kad padėtų jiems sukurti parametrus, kurie gali būti naudojami sprendžiant kitą užduotį. Rentgeno spindulių klasifikavimo modelis gali būti iš anksto parengtas naudojant didžiulį sintetiškai sukurtų vaizdų duomenų rinkinį, kol jis bus išmokytas atlikti tikrąją užduotį, naudojant daug mažesnį realių rentgeno spindulių duomenų rinkinį.
Šie tyrėjai anksčiau parodė, kad jie gali naudoti keletą vaizdų generavimo programų, kad sukurtų sintetinius duomenis modelio išankstiniam mokymui, tačiau programos turėjo būti kruopščiai suprojektuotos, kad sintetiniai vaizdai atitiktų tam tikras tikrų vaizdų savybes. Dėl to techniką buvo sunku išplėsti.
Naujame darbe jie panaudojo didžiulį nekuruotų vaizdų generavimo programų duomenų rinkinį.
Jie pradėjo rinkdami 21 000 vaizdų generavimo programų iš interneto rinkinį. Visos programos yra parašytos paprasta programavimo kalba ir susideda tik iš kelių kodo fragmentų, todėl jos greitai sukuria vaizdus.
„Šias programas sukūrė kūrėjai visame pasaulyje, kad sukurtų vaizdus, kurie turi kai kurias mus dominančias savybes. Jos sukuria vaizdus, kurie atrodo kaip abstraktus menas”, – aiškina Baradad.
Šios paprastos programos gali veikti taip greitai, kad tyrėjams nereikėjo iš anksto kurti vaizdų, kad galėtų išmokyti modelį. Tyrėjai nustatė, kad jie gali generuoti vaizdus ir vienu metu mokyti modelį, o tai supaprastina procesą.
Jie naudojo savo didžiulį vaizdų generavimo programų duomenų rinkinį, kad iš anksto parengtų kompiuterinio matymo modelius tiek prižiūrimoms, tiek neprižiūrimoms vaizdų klasifikavimo užduotims atlikti. Mokymųsi prižiūrint, vaizdo duomenys yra pažymėti etiketėmis, o neprižiūrimo mokymosi metu modelis išmoksta suskirstyti vaizdus į kategorijas be etikečių.
Tikslumo gerinimas
Kai jie palygino savo iš anksto paruoštus modelius su moderniausiais kompiuteriniais regėjimo modeliais, kurie buvo iš anksto paruošti naudojant sintetinius duomenis, jų modeliai buvo tikslesni, o tai reiškia, kad jie dažniau įtraukė vaizdus į tinkamas kategorijas. Nors tikslumo lygis vis dar buvo mažesnis nei modelių, parengtų naudojant tikrus duomenis, jų technika sumažino našumo atotrūkį tarp modelių, parengtų naudojant tikrus duomenis, ir tų, kurie mokomi naudojant sintetinius duomenis 38 procentais.
„Svarbu tai, kad parodome, kad pagal jūsų renkamų programų skaičių našumas skaičiuojamas logaritmiškai. Mes neprisotiname našumo, todėl jei surinktume daugiau programų, modelis veiktų dar geriau. Taigi, yra būdas išplėsti savo požiūrį“, – sako Manelis.
Tyrėjai taip pat naudojo kiekvieną atskirą vaizdo generavimo programą išankstiniam mokymui, siekdami atskleisti veiksnius, kurie prisideda prie modelio tikslumo. Jie nustatė, kad kai programa sukuria įvairesnį vaizdų rinkinį, modelis veikia geriau. Jie taip pat nustatė, kad spalvingi vaizdai su scenomis, užpildančiomis visą drobę, dažniausiai pagerina modelio veikimą.
Dabar, kai jie įrodė šio išankstinio mokymo metodo sėkmę, mokslininkai nori išplėsti savo techniką ir įtraukti kitus duomenų tipus, pavyzdžiui, daugiarūšius duomenis, apimančius tekstą ir vaizdus. Jie taip pat nori toliau ieškoti būdų, kaip pagerinti vaizdų klasifikavimo našumą.
„Vis dar yra spragų, kurias reikia užpildyti naudojant modelius, parengtus remiantis tikrais duomenimis. Tai suteikia mūsų tyrimams kryptį, kuria, tikimės, paseks ir kiti“, – sako jis.

