Robotas, manipuliuojantis objektais, pavyzdžiui, dirbdamas virtuvėje, galės suprasti, kurie daiktai pagaminti iš tų pačių medžiagų. Turėdamas šias žinias, robotas žinotų, kad turi veikti panašią jėgą, nesvarbu, ar jis paima nedidelį sviesto glostelį iš šešėlinio stalviršio kampo, ar visą pagaliuką iš ryškiai apšviesto šaldytuvo vidaus.
Objektų, sudarytų iš tos pačios medžiagos, identifikavimas scenoje, žinomas kaip medžiagų pasirinkimas, yra ypač sudėtinga mašinoms, nes medžiagos išvaizda gali labai skirtis priklausomai nuo objekto formos arba apšvietimo sąlygų.
MIT ir „Adobe Research“ mokslininkai žengė žingsnį link šio iššūkio sprendimo. Jie sukūrė techniką, kuri gali identifikuoti visus vaizdo pikselius, vaizduojančius tam tikrą medžiagą, kuri rodoma vartotojo pasirinktame pikselyje.
Metodas yra tikslus net tada, kai objektai yra skirtingų formų ir dydžių, o jų sukurtas mašininio mokymosi modelis nėra apgautas šešėlių ar apšvietimo sąlygų, dėl kurių ta pati medžiaga gali atrodyti kitaip.
Nors jie apmokė savo modelį naudodami tik „sintetinius“ duomenis, kuriuos sukuria kompiuteris, modifikuojantis 3D scenas, kad būtų sukurta daug skirtingų vaizdų, sistema efektyviai veikia tikrose patalpose ir lauke, kurių dar niekada nematė. Šis metodas taip pat gali būti naudojamas vaizdo įrašams; Kai vartotojas identifikuoja pikselį pirmame kadre, modelis gali identifikuoti objektus, pagamintus iš tos pačios medžiagos visoje likusioje vaizdo įrašo dalyje.
Tyrėjų technika taip pat gali būti naudojama norint pasirinkti panašias medžiagas vaizdo įraše. Naudotojas identifikuoja pikselį pirmame kadre (raudonas taškas kairiajame geltono audinio paveikslėlyje), o sistema automatiškai identifikuoja objektus, pagamintus iš tos pačios medžiagos visoje likusioje vaizdo įrašo dalyje. Vaizdas: tyrėjų sutikimas
Be robotikos scenos supratimo programų, šis metodas gali būti naudojamas vaizdų redagavimui arba įtrauktas į skaičiavimo sistemas, kurios nustato vaizdų medžiagų parametrus. Jis taip pat gali būti naudojamas medžiaga pagrįstose žiniatinklio rekomendacijų sistemose. (Galbūt pirkėjas ieško, pavyzdžiui, drabužių, pasiūtų iš tam tikros rūšies audinio.)
„Žinoti, su kokia medžiaga bendrauji, dažnai yra gana svarbu. Nors du objektai gali atrodyti panašiai, jie gali turėti skirtingas medžiagų savybes. Mūsų metodas gali palengvinti visų kitų vaizdo pikselių, pagamintų iš tos pačios medžiagos, pasirinkimą“, – sako Prafull Sharma, elektros inžinerijos ir informatikos magistrantūros studentas ir pagrindinis šio metodo autorius.
„Sharma“ bendraautoriai yra Julien Philip ir Michael Gharbi, „Adobe Research“ mokslininkai; ir vyresnieji autoriai Williamas T. Freemanas, Thomas ir Gerd Perkins, elektros inžinerijos ir kompiuterių mokslo profesorius bei Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) narys; Frédo Durand, elektros inžinerijos ir informatikos profesorius bei CSAIL narys; ir Valentin Deschaintre, „Adobe Research“ mokslininkas. Tyrimas bus pristatytas SIGGRAPH 2023 konferencijoje.
Naujas požiūris
Esami medžiagų atrankos metodai stengiasi tiksliai identifikuoti visus pikselius, vaizduojančius tą pačią medžiagą. Pavyzdžiui, kai kurie metodai sutelkia dėmesį į visus objektus, tačiau vienas objektas gali būti sudarytas iš kelių medžiagų, pavyzdžiui, kėdės su medinėmis rankenomis ir odine sėdyne. Kituose metoduose gali būti naudojamas iš anksto nustatytas medžiagų rinkinys, tačiau jie dažnai turi plačias etiketes, pvz., „mediena“, nepaisant to, kad yra tūkstančiai medienos rūšių.
Vietoj to, Sharma ir jo bendradarbiai sukūrė mašininio mokymosi metodą, kuris dinamiškai įvertina visus vaizdo pikselius, kad nustatytų esminius vartotojo pasirinkto pikselio ir visų kitų vaizdo regionų panašumus. Jei paveikslėlyje yra stalas ir dvi kėdės, o kėdžių kojos ir stalviršis yra pagaminti iš tos pačios rūšies medienos, jų modelis galėtų tiksliai nustatyti tuos panašius regionus.
Kad mokslininkai galėtų sukurti AI metodą, kad išmoktų pasirinkti panašias medžiagas, jie turėjo įveikti keletą kliūčių. Pirma, jokiame esamame duomenų rinkinyje nebuvo medžiagų, kurios būtų pakankamai tiksliai pažymėtos, kad būtų galima išmokyti jų mašininio mokymosi modelį. Tyrėjai sukūrė savo sintetinį patalpų scenų duomenų rinkinį, kuriame buvo 50 000 vaizdų ir daugiau nei 16 000 medžiagų, atsitiktinai pritaikytų kiekvienam objektui.
„Mes norėjome duomenų rinkinio, kuriame kiekvienas atskiras medžiagos tipas būtų pažymėtas atskirai“, – sako Sharma.
Turėdami sintetinį duomenų rinkinį, jie parengė mašininio mokymosi modelį, kad būtų galima identifikuoti panašias medžiagas tikruose vaizduose, tačiau tai nepavyko. Tyrėjai suprato, kad dėl to kaltas pasiskirstymo pokytis. Taip nutinka, kai modelis mokomas naudojant sintetinius duomenis, tačiau jis nepavyksta, kai išbandomas naudojant realaus pasaulio duomenis, kurie gali labai skirtis nuo mokymo rinkinio.
Norėdami išspręsti šią problemą, jie sukūrė savo modelį ant iš anksto paruošto kompiuterinio regėjimo modelio, kuris matė milijonus tikrų vaizdų. Jie pasinaudojo ankstesnėmis šio modelio žiniomis, panaudodami jau išmoktas vaizdines funkcijas.
„Mašinų mokymesi, kai naudojate neuroninį tinklą, dažniausiai mokomasi atvaizdavimo ir užduoties sprendimo proceso kartu. Mes tai išskyrėme. Iš anksto paruoštas modelis suteikia mums vaizdą, tada mūsų neuroninis tinklas tiesiog sutelkia dėmesį į užduoties sprendimą“, – sako jis.
Spręsti dėl panašumo
Tyrėjų modelis paverčia bendrąsias, iš anksto parengtas vizualines savybes į specifines medžiagai būdingas savybes ir tai daro taip, kad būtų atsparus objektų formoms ar įvairioms apšvietimo sąlygoms.
Sistema, kurią mokslininkai sukūrė panašioms medžiagoms nustatyti, yra atspari apšvietimo sąlygų pokyčiams, kaip matyti iš šio degtukų galvučių degimo pavyzdžio. Vaizdas: tyrėjų sutikimas
Tada modelis gali apskaičiuoti kiekvieno vaizdo pikselio medžiagos panašumo balą. Kai vartotojas spustelėja pikselį, modelis nustato, kaip arti užklausos yra kiekvienas kitas pikselis. Jis sukuria žemėlapį, kuriame kiekvienas pikselis yra vertinamas skalėje nuo 0 iki 1, siekiant panašumo.
„Vartotojas tiesiog spusteli vieną pikselį, o tada modelis automatiškai pasirinks visus regionus, kuriuose yra ta pati medžiaga“, – sako jis.
Kadangi modelis išveda kiekvieno pikselio panašumo balą, vartotojas gali patikslinti rezultatus nustatydamas slenkstį, pvz., 90 procentų panašumo, ir gauti vaizdo žemėlapį su paryškintomis sritimis. Metodas taip pat tinka kryžminiam vaizdų pasirinkimui – vartotojas gali pasirinkti pikselį viename paveikslėlyje ir rasti tą pačią medžiagą atskirame paveikslėlyje.
Eksperimentų metu mokslininkai išsiaiškino, kad jų modelis gali nuspėti vaizdo sritis, kuriose yra ta pati medžiaga, tiksliau nei kitais metodais. Kai jie išmatavo, kaip gerai prognozė, palyginti su pagrindine tiesa, ty tikrosiomis vaizdo sritimis, sudarytomis iš tos pačios medžiagos, jų modelis atitiko maždaug 92 procentų tikslumą.
Ateityje jie nori patobulinti modelį, kad jis galėtų geriau užfiksuoti smulkias objektų detales vaizde, o tai padidintų jų požiūrio tikslumą.
„Turtingos medžiagos prisideda prie pasaulio, kuriame gyvename, funkcionalumo ir grožio. Tačiau kompiuterinio matymo algoritmai paprastai nepaiso medžiagų ir daug dėmesio skiria objektams. Šis dokumentas yra svarbus indėlis atpažįstant medžiagą vaizduose ir vaizdo įrašuose įvairiomis sudėtingomis sąlygomis“, – sako Kavita Bala, Kornelio Bowerso skaičiavimo ir informacijos mokslų koledžo dekanė ir kompiuterių mokslo profesorė, kuri nedalyvavo šiame darbe. . „Ši technologija gali būti labai naudinga galutiniams vartotojams ir dizaineriams. Pavyzdžiui, namų savininkas gali įsivaizduoti, kaip gali pasirodyti brangūs sprendimai, tokie kaip sofos apmušimas ar kiliminės dangos keitimas kambaryje, ir gali būti labiau pasitikintis savo dizaino pasirinkimu, remdamasis šiomis vizualizacijomis.

