Pristatome naują metodą, leidžiantį įvertinti viso ilgio judesio trajektorijas kiekviename vaizdo įrašo kadre kiekvienam pikseliui, kaip parodyta aukščiau parodytuose judėjimo keliuose. Aiškumo dėlei rodome tik retas priekinio plano objektų trajektorijas, nors mūsų metodas apskaičiuoja visų pikselių judėjimą. Mūsų metodas užtikrina tikslų, nuoseklų judesį dideliais atstumais net ir greitai judančius objektus ir tvirtai seka per okliuzijas, kaip parodyta šunų ir siūbavimo pavyzdžiuose. Dėl konteksto antroje eilutėje judantį objektą vaizduojame skirtingais laiko momentais. Kreditas: arXiv (2023). DOI: 10.48550/arxiv.2306.05422 Kornelio tyrėjai sukūrė naują optimizavimo įrankį, skirtą įvertinti judesį įvesties vaizdo įraše, kuris gali būti pritaikytas vaizdo įrašų redagavimui ir generuojančiam AI vaizdo įrašų kūrimui.
Priemonė, pavadinta „OmniMotion“, aprašyta dokumente „Tracking Everything, visur, viskas vienu metu“, pristatytame Tarptautinėje kompiuterinės vizijos konferencijoje spalio 2–6 d. Paryžiuje.
„Yra šios dvi dominuojančios judesio įvertinimo paradigmos – optinis srautas, kuris yra tankus, bet trumpas, ir funkcijų sekimas, kuris yra negausus, bet ilgo nuotolio“, – sakė Noah Snavely, „Cornell Tech“ ir „Cornell Ann“ kompiuterių mokslų docentas. S. Bowerso kompiuterijos ir informacijos mokslų koledžas. „Mūsų metodas leidžia mums turėti tiek tankų, tiek tolimą stebėjimą per tam tikrą laiką.”
„OmniMotion“ naudoja tai, ką mokslininkai vadina „kvazi-3D vaizdu“ – atsipalaidavusią 3D formą, kuri išlaiko svarbias savybes (pvz., sekimo pikselius, kai jie eina už kitų objektų) be dinaminės 3D rekonstrukcijos iššūkių.
„Mes radome būdą, kaip iš esmės įvertinti kokybiškesnį 3D vaizdą“, – sakė Snavely. „Tai sako: „Aš tiksliai nežinau, kur šie du objektai yra 3D erdvėje, bet žinau, kad šis yra priešais tą. Negalite žiūrėti į tai kaip į 3D modelį, nes viskas bus iškraipoma, tačiau jis užfiksuoja objektų eilės santykius.
Naujasis metodas paima nedidelį kadrų ir judesio įvertinimų pavyzdį, kad būtų sukurtas pilnas viso vaizdo įrašo judesio vaizdas. Optimizavus, galima pateikti užklausą dėl vaizdavimo naudojant bet kurį tašką bet kuriame kadre, kad būtų sukurta sklandi, tiksli judėjimo trajektorija visame vaizdo įraše.
Tai būtų naudinga, sakė Snavely, įtraukiant kompiuterio sukurtus vaizdus arba CGI į vaizdo redagavimą.
„Jei noriu ant vaizdo įrašo uždėti objektą, tarkime, lipduką, turiu žinoti, kur jis turėtų būti kiekviename kadre“, – sakė jis. „Taigi įdedu jį į pirmąjį vaizdo įrašo kadrą; kad nereikėtų kruopščiai redaguoti kiekvieno paskesnio kadro, būtų puiku, jei galėčiau tiesiog stebėti, kur jis turėtų būti kiekviename kadre, taip pat ar jis turėtų būti Nebūk ten, jei kažkas užstoja“.
„OmniMotion“ taip pat galėtų padėti informuoti algoritmus generuojančiose teksto į vaizdo įrašus programose, sakė Snavely.
„Dažnai šie teksto į vaizdo įrašą modeliai nėra labai nuoseklūs“, – sakė jis. „Vaizdo įrašo metu objektų dydis pasikeis arba žmonės judės keistais būdais, nes jie tiesiog generuoja neapdorotus vaizdo įrašo pikselius. Jie neturi jokio supratimo apie pagrindinę dinamiką, dėl kurios susidarytų pikselis. judesį.
„Tikimės, kad pateikdami algoritmus, skirtus vaizdo įrašų judesiui įvertinti, galime padėti pagerinti sukurtų vaizdo įrašų judesių darną“, – sakė jis.
Qianqian Wang, Kalifornijos universiteto Berklio doktorantas ir „Google Research“ mokslininkas, buvo pagrindinis autorius. Kiti bendraautoriai buvo Bharath Hariharan, Kornelio Bowerso NVS kompiuterių mokslo docentas; doktorantai Yen-Yu Chang ir Ruojin Cai; ir Aleksandras Holynskis, Berklio mokslo darbuotojas ir „Google Research“ mokslininkas; ir Zhengqi Li iš „Google Research“.
Taip pat konferencijoje Cai pristatė „Doppelgangers: Learning to Unambiguate Images of panašus Structures“, kuriame naudojamas didžiulis vaizdų porų duomenų rinkinys, skirtas kompiuterinės regos programoms atskirti vaizdus, kurie atrodo taip pat, bet nėra kaip skirtingos laikrodžio pusės. bokštas ar pastatas.
Doppelgangeriams Snavely ir jo komanda parodo, kaip naudoti esamas vaizdų anotacijas, saugomas Wikimedia Commons vaizdų duomenų bazėje, kad būtų galima automatiškai sukurti didelį pažymėtų 3D paviršių vaizdų porų rinkinį.
„Doppelgangers“ sudaro internetinių nuotraukų apie orientyrus ir kultūros objektus, kuriuose matomi pasikartojantys raštai ir simetriškos struktūros, kolekcija. Duomenų rinkinyje yra daug vaizdų porų – kiekviena pažymėta kaip teigiamos arba neigiamos atitinkančios poros.
„Didysis Benas arba Eifelio bokštas – iš skirtingų pusių jie atrodo vienodai“, – sakė Snavely. „Kompiuterinis regėjimas tiesiog nėra pakankamai geras, kad atskirtume puses. Taigi mes išradome metodą, kuris padėtų atskirti, kada du dalykai atrodo panašūs, bet skiriasi ir kada du dalykai iš tikrųjų yra vienodi.”
„Doppelgangers“ programoje neuroninis tinklas mokomas įvertinti pagrindinių vaizdo taškų erdvinį pasiskirstymą, atskirti vaizdų poras, kurios atrodo panašios, bet skiriasi – kaip du skirtingi Big Beno veidai – nuo faktinio identiško scenos turinio vaizdų. Tai būtų naudinga 3D rekonstrukcijos technologijoje, sakė Snavely.
„Tinklas greičiausiai sužinos, ar fonas yra tas pats, ar skiriasi, ar yra kitų detalių, kurios juos išskiria“, – sakė jis. „Tada išvedama tikimybė: ar jie tikrai atitinka, ar tiesiog atrodo, kad jie atitinka? Tada galime tai integruoti su 3D rekonstrukcijos vamzdynais, kad sukurtume geresnius modelius.”
Daugiau informacijos: Qianqian Wang ir kt., Stebėti viską visur vienu metu, arXiv (2023). DOI: 10.48550/arxiv.2306.05422
Ruojin Cai ir kt., Doppelgangers: Mokymasis išskirti panašių struktūrų vaizdus, arXiv (2023). DOI: 10.48550/arxiv.2309.02420
Žurnalo informacija: arXiv
Citata: Naujas optimizavimo įrankis leidžia geriau įvertinti vaizdo įrašo judesį (2023 m. spalio 10 d.), gautas 2023 m. spalio 11 d. iš https://techxplore.com/news/2023-10-optimization-tool-video-motion.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.