Siūlomame modelyje įdiegtos naujoviškos strategijos, leidžiančios tiksliai sujungti 3D LiDAR duomenis su 2D vaizdais, o tai užtikrina žymiai geresnį našumą nei moderniausi modeliai, skirti aptikti mažą taikinį net esant nepalankioms oro sąlygoms. Autoriai: Hiroyuki Tomiyama, Ritsumeikano universitetas Robotika ir autonominės transporto priemonės yra vienos sparčiausiai augančių technologijų srityje, todėl darbas ir transportavimas gali būti saugesnis ir efektyvesnis. Kadangi tiek robotai, tiek savarankiškai važiuojantys automobiliai turi tiksliai suvokti aplinką, 3D objektų aptikimo metodai yra aktyvi studijų sritis.
Dauguma 3D objektų aptikimo metodų naudoja LiDAR jutiklius, kad sukurtų 3D taškų debesis savo aplinkoje. Paprasčiau tariant, LiDAR jutikliai naudoja lazerio spindulius, kad greitai nuskaitytų ir išmatuotų objektų ir paviršių atstumus aplink šaltinį. Tačiau vien tik LiDAR duomenų naudojimas gali sukelti klaidų dėl didelio LiDAR jautrumo triukšmui, ypač esant nepalankioms oro sąlygoms, pavyzdžiui, lyjant.
Norėdami išspręsti šią problemą, mokslininkai sukūrė daugiarūšius 3D objektų aptikimo metodus, kurie sujungia 3D LiDAR duomenis su 2D RGB vaizdais, užfiksuotais standartinėmis kameromis. Nors 2D vaizdų ir 3D LiDAR duomenų suliejimas leidžia gauti tikslesnius 3D aptikimo rezultatus, jis vis tiek susiduria su savo iššūkiais, o tiksliai aptikti mažus objektus vis dar sunku.
Problema daugiausia kyla dėl tinkamo semantinės informacijos, išgautos nepriklausomai iš 2D ir 3D duomenų rinkinių, derinimo, o tai sunku dėl tokių problemų kaip netikslus kalibravimas ar okliuzija.
Atsižvelgdama į tai, tyrimų grupė, vadovaujama profesoriaus Hiroyuki Tomiyama iš Ritsumeikano universiteto (Japonija), sukūrė naujovišką metodą, kad daugiarūšis 3D objektų aptikimas būtų tikslesnis ir patikimesnis. Siūloma schema, pavadinta „Dynamic Point-Pixel Feature Alignment Network“ (DPPFA−Net), aprašyta jų dokumente, paskelbtame IEEE daiktų interneto žurnalas.
Modelis susideda iš kelių trijų naujų modulių egzempliorių išdėstymo: atmintimi pagrįsto taškų ir taškų sintezės (MPPF) modulio, deformuojamo taško ir vaizdo sintezės (DPPF) modulio ir semantinio suderinimo įvertinimo (SAE) modulio.
MPPF moduliui pavesta atlikti aiškią intermodalinių funkcijų (2D su 2D ir 3D su 3D) ir kryžminio transporto funkcijų (2D su 3D) sąveiką. Naudojant 2D vaizdą kaip atminties banką, sumažėja tinklo mokymosi sunkumų ir sistema tampa atsparesnė triukšmui D taško debesyse. Be to, tai skatina naudoti išsamesnes ir diskriminacines funkcijas.
Priešingai, DPPF modulis sąveikauja tik su pikseliais pagrindinėse pozicijose, kurios nustatomos naudojant išmaniąją atrankos strategiją. Tai leidžia sujungti funkcijas didelėje skiriamojoje geboje esant mažam skaičiavimo sudėtingumui. Galiausiai, SAE modulis padeda užtikrinti semantinį abiejų duomenų atvaizdų derinimą sintezės proceso metu, o tai sumažina funkcijų dviprasmiškumo problemą.
Tyrėjai išbandė DPPFA−Net, lygindami jį su geriausiais plačiai naudojamo KITTI Vision Benchmark rezultatais. Pažymėtina, kad siūlomame tinkle skirtingomis triukšmo sąlygomis vidutinis tikslumo pagerėjimas siekė net 7,18%. Siekdama toliau išbandyti savo modelio galimybes, komanda sukūrė naują triukšmingų duomenų rinkinį, KITTI duomenų rinkinyje įtraukdama dirbtinį daugiarūšį triukšmą lietaus pavidalu.
Rezultatai rodo, kad siūlomas tinklas veikė geriau nei esami modeliai ne tik esant dideliam okliuzijai, bet ir esant įvairaus lygio nepalankioms oro sąlygoms. „Mūsų platūs eksperimentai su KITTI duomenų rinkiniu ir sudėtingi daugiarūšiai triukšmingi atvejai rodo, kad DPPFA-Net pasiekia naują pažangiausią lygį“, – sako prof. Tomiyama.
Pažymėtina, kad yra įvairių būdų, kuriais tikslūs 3D objektų aptikimo metodai gali pagerinti mūsų gyvenimą. Savaeigiai automobiliai, kurie remiasi tokia technika, gali sumažinti avarijų skaičių ir pagerinti eismo srautą bei saugumą. Be to, nereikėtų nuvertinti pasekmių robotikos srityje. „Mūsų tyrimas galėtų padėti geriau suprasti ir pritaikyti robotus prie jų darbo aplinkos, o tai leistų tiksliau suvokti mažus taikinius“, – aiškina prof. Tomiyama.
„Tokios pažangos padės pagerinti robotų galimybes įvairiose programose. Kitas 3D objektų aptikimo tinklų panaudojimas yra išankstinis neapdorotų duomenų žymėjimas gilaus mokymosi suvokimo sistemoms. Tai žymiai sumažintų rankinio anotavimo išlaidas ir paspartintų šios srities plėtrą.
Daugiau informacijos: Juncheng Wang ir kt., Dinaminis taško ir pikselio funkcijų išlygiavimas, skirtas multimodaliniam 3D objektų aptikimui, IEEE daiktų interneto žurnalas (2023). DOI: 10.1109 / JIOT.2023.3329884
Citata: tinklas sujungia 3D LiDAR ir 2D vaizdo duomenis, kad būtų galima tiksliau aptikti mažus objektus (2024 m. sausio 9 d.), gauta 2024 m. sausio 10 d. iš https://techxplore.com/news/2024-01-network-combines-3d-lidar- 2d.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.

