Duomenų ženklinimas gali būti sudėtingas. Tai pagrindinis kompiuterinių regos modelių pragyvenimo šaltinis; be jo jiems būtų labai sunku identifikuoti objektus, žmones ir kitas svarbias vaizdo savybes. Tačiau vos valandos trukmės pažymėtų ir paženklintų duomenų parengimas gali pareikalauti milžiniškų 800 žmogaus laiko sąnaudų. Mūsų labai tikslus pasaulio supratimas vystosi, nes mašinos gali geriau suvokti ir sąveikauti su mus supančia aplinka.
MIT Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL), „Microsoft” ir Kornelio universiteto mokslininkai pabandė išspręsti šią regos modelius kamuojančią problemą sukurdami STEGO – algoritmą, kuris gali bendrai atrasti ir segmentuoti objektus be jokių žmogaus etikečių, iki pat pikselio
STEGO mokosi vadinamojo „semantinio segmentavimo”, t. y. proceso, kai kiekvienam vaizdo pikseliui priskiriama etiketė. Semantinis segmentavimas yra svarbus šiuolaikinių kompiuterinės regos sistemų įgūdis, nes vaizdai gali būti perkrauti objektais. Dar didesnis iššūkis yra tai, kad šie objektai ne visada telpa į tiesiogines dėžutes; algoritmai paprastai geriau veikia atskiriems „daiktams”, tokiems kaip žmonės ir automobiliai, o ne „daiktams”, tokiems kaip augmenija, dangus ir bulvių košė. Ankstesnė sistema niuansuotą parke žaidžiančio šuns sceną gali suvokti tiesiog kaip šunį, tačiau STEGO, suteikdama kiekvienam vaizdo pikseliui etiketę, gali suskaidyti vaizdą į pagrindines sudedamąsias dalis: šunį, dangų, žolę ir šeimininką.
Priskirti kiekvienam pasaulio pikseliui etiketę yra ambicinga, ypač be jokio grįžtamojo ryšio iš žmonių. Dauguma dabartinių algoritmų žinias gauna iš daugybės pažymėtų duomenų, kurių surinkimas gali užtrukti daugybę valandų. Tik įsivaizduokite, kaip įdomu žymėti kiekvieną 100,000 vaizdų pikselį! Norėdamas atrasti šiuos objektus be žmogaus pagalbos, STEGO ieško panašių objektų, esančių visame duomenų rinkinyje. Tuomet jis susieja šiuos panašius objektus, kad sudarytų nuoseklų pasaulio vaizdą visuose vaizduose, iš kurių mokosi.
Pasaulio matymas
Mašinos, kurios gali „matyti”, yra labai svarbios įvairioms naujoms ir atsirandančioms technologijoms, pavyzdžiui, savavaldžiams automobiliams ir prognoziniam modeliavimui medicinos diagnostikoje. Kadangi STEGO gali mokytis be etikečių, jis gali aptikti objektus daugelyje skirtingų sričių, net ir tuos, kurių žmonės dar iki galo nesupranta.
„Jei žiūrite į onkologines nuotraukas, planetų paviršių ar didelės raiškos biologinius vaizdus, be ekspertinių žinių sunku žinoti, kokių objektų ieškoti. Naujose srityse kartais net žmonės ekspertai nežino, kokie turėtų būti tinkami objektai”, – sako Markas Hamiltonas, MIT elektros inžinerijos ir kompiuterių mokslo doktorantas, MIT CSAIL mokslo darbuotojas, „Microsoft” programinės įrangos inžinierius ir pagrindinis naujo straipsnio apie STEGO autorius. „Tokiose situacijose, kai norima sukurti metodą, kuris veiktų ties mokslo ribomis, negalima pasikliauti, kad žmonės tai supras anksčiau nei mašinos.”
STEGO buvo išbandytas su daugybe vaizdinių sričių, apimančių bendrus vaizdus, vairavimo vaizdus ir didelio aukščio aerofotonuotraukas. Kiekvienoje srityje STEGO sugebėjo atpažinti ir suskirstyti atitinkamus objektus, kurie labai atitiko žmogaus vertinimus. Įvairiausias STEGO etalonas buvo COCO-Stuff duomenų rinkinys, kurį sudaro įvairūs vaizdai iš viso pasaulio – nuo patalpų scenų iki sportuojančių žmonių, medžių ir karvių. Daugeliu atvejų ankstesnė moderniausia sistema galėjo užfiksuoti mažos skiriamosios gebos scenos esmę, tačiau susidūrė su sunkumais nustatant smulkias detales: Žmogus buvo dėmė, motociklas buvo užfiksuotas kaip žmogus, o žąsų ji negalėjo atpažinti. Tose pačiose scenose STEGO padvigubino ankstesnių sistemų našumą ir atrado tokias sąvokas kaip gyvūnai, pastatai, žmonės, baldai ir daugelį kitų.
STEGO ne tik padvigubino ankstesnių sistemų našumą COCO-Stuff etalone, bet ir padarė panašų šuolį į priekį kitose vaizdo srityse. Pritaikyta bepiločių automobilių duomenų rinkiniams, STEGO sėkmingai segmentavo kelius, žmones ir gatvių ženklus daug didesne raiška ir smulkumu nei ankstesnės sistemos. Iš kosmoso gautuose vaizduose sistema kiekvieną kvadratinę Žemės paviršiaus pėdą suskirstė į kelius, augmeniją ir pastatus.
Sujungiant pikselius
STEGO, kuris reiškia „Self-supervised Transformer with Energy-based Graph Optimization” („Savikontrolės transformatorius su energija pagrįstu grafikų optimizavimu”), remiasi DINO algoritmu, kuris sužinojo apie pasaulį iš 14 milijonų vaizdų iš „ImageNet” duomenų bazės. STEGO patobulina DINO pagrindą per mokymosi procesą, kuris imituoja mūsų pačių būdą sujungti pasaulio fragmentus, kad jie įgytų prasmę.
Pavyzdžiui, galite nagrinėti du parke vaikštančių šunų vaizdus. Nors tai skirtingi šunys, su skirtingais šeimininkais, skirtinguose parkuose, STEGO gali pasakyti (be žmogaus), kaip kiekvienos scenos objektai susiję vienas su kitu. Autoriai netgi ištyrė STEGO protą, kad pamatytų, kuo kiekvienas mažas, rudas, pūkuotas daiktas paveikslėliuose yra panašus, panašiai ir su kitais bendrais objektais, pavyzdžiui, žole ir žmonėmis. Sujungdamas objektus įvairiuose vaizduose, STEGO susikuria nuoseklų žodžio vaizdą.
„Idėja yra ta, kad tokio tipo algoritmai gali rasti nuoseklias grupes iš esmės automatizuotu būdu, kad mums patiems nereikėtų to daryti”, – sako Hamiltonas. „Galbūt prireiktų ne vienerių metų, kad suprastume sudėtingus vaizdinių duomenų rinkinius, pavyzdžiui, biologinius vaizdus, tačiau jei galime išvengti 1,000 valandų, praleistų šukuojant duomenis ir juos ženklinant, galime rasti ir atrasti naujos informacijos, kurią būtume praleidę. Tikimės, kad tai padės mums suprasti vaizdinį žodį empiriškai pagrįstesniu būdu.”
Žvelgiant į ateitį
Nepaisant patobulinimų, STEGO vis dar susiduria su tam tikrais iššūkiais. Vienas iš jų yra tas, kad etiketės gali būti savavališkos. Pavyzdžiui, COCO-Stuff duomenų rinkinio etiketėse išskiriami „maisto daiktai”, pavyzdžiui, bananai ir vištienos sparneliai, ir „maisto produktai”, pavyzdžiui, kruopos ir makaronai. STEGO nemato didelio skirtumo. Kitais atvejais STEGO suklaidino keistoki vaizdai, pavyzdžiui, bananas, padėtas ant telefono aparato, kai aparatas buvo pažymėtas kaip „maisto produktas”, o ne kaip „žaliava”
Būsimame darbe jie planuoja ištirti, kaip suteikti STEGO šiek tiek daugiau lankstumo, o ne tik priskirti pikselius fiksuotam klasių skaičiui, nes realiame pasaulyje daiktai kartais gali būti keli dalykai vienu metu (pavyzdžiui, „maistas”, „augalas” ir „vaisius”). Autoriai tikisi, kad tai suteiks algoritmui vietos neapibrėžtumui, kompromisams ir abstraktesniam mąstymui.
„Sukurdami bendrą priemonę potencialiai sudėtingiems duomenų rinkiniams suprasti, tikimės, kad tokio tipo algoritmas gali automatizuoti mokslinį objektų atradimo iš vaizdų procesą. Yra daug įvairių sričių, kuriose žmogaus atliekamas ženklinimas būtų pernelyg brangus arba žmonės paprasčiausiai net nežino konkrečios struktūros, pavyzdžiui, tam tikrose biologijos ir astrofizikos srityse. Tikimės, kad būsimas darbas leis pritaikyti labai plačiam duomenų rinkinių spektrui. Kadangi nereikia jokių žmogiškųjų etikečių, dabar galime pradėti plačiau taikyti ML įrankius”, – sako Hamiltonas.
„STEGO yra paprastas, elegantiškas ir labai veiksmingas. Manau, kad neprižiūrimas segmentavimas yra vaizdų supratimo pažangos etalonas ir labai sudėtinga problema. Mokslininkų bendruomenė padarė didžiulę pažangą nekontroliuojamo vaizdų supratimo srityje, pritaikiusi transformatorių architektūras, – sako Oksfordo universiteto inžinerijos mokslų departamento kompiuterinės regos ir mašininio mokymosi profesorius ir vienas iš Vizualinės geometrijos grupės vadovų Andrea Vedaldi. „Šis tyrimas yra bene tiesiausias ir veiksmingiausias šios pažangos neprižiūrimo segmentavimo srityje įrodymas.”
Hamiltonas straipsnį parašė kartu su MIT CSAIL doktorantu Zhoutongu Zhangu, Kornelio universiteto docentu Bharathu Hariharanu, Kornelio technikos universiteto docentu Noahu Snavely ir MIT profesoriumi Williamu T. Freemanu. Jie pristatys šį straipsnį 2022 Tarptautinėje konferencijoje apie mokymosi reprezentacijas (ICLR).