Mokslo ir technologijų srityje buvo ilgai ir nuolat stengiamasi gerinti visų rūšių matavimų tikslumą, kartu dedamos pastangos pagerinti vaizdų skyrą. Lydimasis tikslas yra sumažinti neapibrėžtumą dėl įvertinimų, kuriuos galima atlikti, ir iš surinktų duomenų (vaizdinių ar kitokių) padarytų išvadų. Tačiau netikrumas niekada negali būti visiškai pašalintas. Ir kadangi mes turime su tuo susigyventi, bent jau tam tikru mastu, kiek įmanoma tiksliau kiekybiškai įvertinus neapibrėžtumą, galima daug pasiekti.
Kitaip tariant, norėtume žinoti, koks neapibrėžtas yra mūsų netikrumas.
Ši problema buvo nagrinėjama naujame tyrime, kuriam vadovavo Swami Sankaranarayanan, MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) doktorantas, ir jo bendraautoriai Anastasios Angelopoulos ir Stephen Bates iš Kalifornijos universiteto Berklyje; Yaniv Romano iš Technion, Izraelio technologijos instituto; ir Phillip Isola, MIT elektrotechnikos ir kompiuterių mokslo docentas. Šiems tyrėjams pavyko ne tik gauti tikslius neapibrėžtumo matavimus, bet ir rasti būdą, kaip parodyti netikrumą taip, kaip galėtų suprasti paprastas žmogus.
Jų popierius, kuri buvo pristatyta gruodį Neural Information Processing Systems konferencijoje Naujajame Orleane, yra susijusi su kompiuterine vizija – dirbtinio intelekto sritimi, kuri apima kompiuterių mokymą rinkti informaciją iš skaitmeninių vaizdų. Šiame tyrime daugiausia dėmesio skiriama vaizdams, kurie yra iš dalies sutepti arba sugadinti (dėl trūkstamų pikselių), taip pat apie metodus, ypač kompiuterinius algoritmus, kurie yra skirti atskleisti pažeistą ar kitaip paslėptą signalo dalį. Sankaranarayanan paaiškina, kad tokio tipo algoritmas „paima neryškų vaizdą kaip įvestį ir suteikia jums švarų vaizdą kaip išvestį“ – procesas, kuris paprastai vyksta keliais žingsniais.
Pirma, yra kodavimo įrenginys, tam tikras neuroninis tinklas, specialiai apmokytas tyrėjų, kad būtų pašalintas neryškių vaizdų suliejimas. Kodavimo priemonė paima iškraipytą vaizdą ir iš to sukuria abstrakčią (arba „latentinę“) švaraus vaizdo atvaizdą formoje, kurią sudaro skaičių sąrašas, kuri yra suprantama kompiuteriui, bet nebūtų prasminga daugumai žmonių. . Kitas žingsnis yra dekoderis, kurio yra keletas tipų, kurie vėl dažniausiai yra neuroniniai tinklai. Sankaranarayananas ir jo kolegos dirbo su tam tikru dekoderiu, vadinamu „generaciniu“ modeliu. Visų pirma, jie naudojo paruoštą versiją, pavadintą StyleGAN, kuri kaip įvestį paima skaičius iš užkoduoto atvaizdo (pavyzdžiui, katės) ir sukuria pilną, išvalytą (tos konkrečios katės) vaizdą. . Taigi visas procesas, įskaitant kodavimo ir dekodavimo etapus, duoda aiškų vaizdą iš iš pradžių purvino atvaizdavimo.
Tačiau kiek kas nors gali tikėti gauto vaizdo tikslumu? Ir kaip kalbėta 2022 m. gruodžio mėn. dokumente, koks yra geriausias būdas parodyti neapibrėžtumą šiame įvaizdyje? Standartinis metodas yra sukurti „ryškumo žemėlapį“, kuriame priskiriama tikimybės reikšmė – kažkur tarp 0 ir 1 – siekiant parodyti modelio pasitikėjimą kiekvieno pikselio, paimto po vieną, teisingumu. Ši strategija turi trūkumą, anot Sankaranarayanan, „nes numatymas atliekamas atskirai kiekvienam pikseliui. Tačiau reikšmingi objektai atsiranda pikselių grupėse, o ne atskirame pikselyje“, – priduria jis, todėl jis ir jo kolegos siūlo visiškai kitokį neapibrėžtumo vertinimo būdą.
Jų požiūris sutelktas į „semantinius vaizdo požymius“ – pikselių grupes, kurios kartu paėmus turi prasmę, sudaro žmogaus veidą, pavyzdžiui, šunį ar kokį nors kitą atpažįstamą dalyką. Sankaranarayanan teigia, kad tikslas „yra įvertinti neapibrėžtumą taip, kad jis būtų susijęs su pikselių grupėmis, kurias žmonės gali lengvai interpretuoti“.
Nors standartinis metodas gali duoti vieną vaizdą, sudarantį „geriausią spėjimą“, koks turėtų būti tikras vaizdas, tokio vaizdavimo neapibrėžtumą paprastai sunku įžvelgti. Naujajame dokumente teigiama, kad, norint naudoti realiame pasaulyje, neapibrėžtumas turėtų būti pateikiamas tokiu būdu, kuris turėtų prasmę žmonėms, kurie nėra mašininio mokymosi ekspertai. Užuot sukūrę vieną vaizdą, autoriai sukūrė vaizdų diapazono generavimo procedūrą – kiekvienas iš jų gali būti teisingas. Be to, jie gali nustatyti tikslias diapazono ar intervalo ribas ir suteikti tikimybinę garantiją, kad tikrasis vaizdas yra kažkur tame diapazone. Siauresnis diapazonas gali būti pateiktas, jei vartotojas yra patenkintas, tarkime, 90 procentų tikrumu, ir siauresnis diapazonas, jei yra priimtina didesnė rizika.
Autoriai mano, kad jų darbe pateikiamas pirmasis algoritmas, sukurtas generatyviniam modeliui, kuris gali nustatyti neapibrėžtumo intervalus, susijusius su prasmingomis (semantiškai interpretuojamomis) vaizdo ypatybėmis ir turi „formalią statistinę garantiją“. Nors tai yra svarbus etapas, Sankaranarayanan mano, kad tai tik žingsnis link „galutinio tikslo“. Iki šiol galėjome tai padaryti dėl paprastų dalykų, pvz., žmonių veidų ar gyvūnų vaizdų atkūrimo, tačiau norime išplėsti šį požiūrį į svarbesnes sritis, pvz., medicininį vaizdavimą, kur mūsų „statistinė garantija“ gali būti ypač svarbi. .
Tarkime, kad krūtinės ląstos rentgeno nuotrauka arba rentgenograma yra neryški, priduria jis: „ir jūs norite atkurti vaizdą. Jei jums pateikiamas įvairių vaizdų diapazonas, norite žinoti, kad tikras vaizdas yra tame diapazone, todėl neprarandate nieko svarbaus“ – informacija, kuri gali atskleisti, ar pacientas serga plaučių vėžiu ar plaučių uždegimu. Tiesą sakant, Sankaranarayananas ir jo kolegos jau pradėjo dirbti su radiologu, norėdami išsiaiškinti, ar jų pneumonijos prognozavimo algoritmas gali būti naudingas klinikinėje aplinkoje.
Jis sako, kad jų darbas taip pat gali būti svarbus teisėsaugos srityje. „Vaizdas iš stebėjimo kameros gali būti neryškus, ir jūs norite tai pagerinti. Modeliai, kaip tai padaryti, jau egzistuoja, tačiau nėra lengva įvertinti neapibrėžtumą. Ir jūs nenorite klysti gyvybės ar mirties situacijoje. Priemonės, kurias jis ir jo kolegos kuria, galėtų padėti nustatyti kaltą asmenį ir taip pat išteisinti nekaltąjį.
Sankaranarayanan pažymi, kad didžioji dalis to, ką darome, ir daugelis dalykų, vykstančių mus supančiame pasaulyje, yra apgaubti netikrumo. Todėl tvirčiau suvokti tą neapibrėžtumą gali padėti mums daugybe būdų. Viena vertus, tai gali mums daugiau pasakyti apie tai, ko mes nežinome.
Angelopoulosą parėmė Nacionalinis mokslo fondas. Batesą rėmė Duomenų mokslo instituto fondai ir Simonso institutas. Romano rėmė Izraelio mokslo fondas ir „Technion“ karjeros pažangos stipendija. Sankaranarayanan ir Isola šio projekto tyrimus rėmė JAV oro pajėgų tyrimų laboratorija ir JAV oro pajėgų dirbtinio intelekto greitintuvas. Jie buvo atlikti pagal bendradarbiavimo susitarimo numerį FA8750-19-2-1000. MIT SuperCloud ir Linkolno laboratorijos superkompiuterių centras taip pat suteikė išteklių, kurie prisidėjo prie šio darbo rezultatų.

