Autorių sveiko proto generacinio priešininkų tinklo arba „CD-GAN“ planas, skirtas teksto į vaizdą sintezei, kuriame rodomi trys moduliai, aprašymo tobulinimas, daugiapakopė generacija ir daugiapakopė diskriminacija. Kreditas: Guokai Zhang ir kt. Siekdama sukurti aukštos kokybės vaizdus, pagrįstus tekstiniais aprašymais, grupė tyrėjų Kinijoje sukūrė generatyvų priešininkų tinklą, apimantį sveiko proto žinias atspindinčius duomenis. Jų metodas naudoja sveiką protą, kad paaiškintų vaizdo generavimo pradžios tašką, taip pat sveikas protas, kad pagerintų skirtingas specifines sukurto vaizdo savybes trimis skirtingais skiriamosios gebos lygiais. Tinklas buvo apmokytas naudojant paukščių vaizdų ir tekstinių aprašymų duomenų bazę. Sukurti paukščių vaizdai pasiekė konkurencinius balus, palyginti su tais, kurie buvo sukurti naudojant kitus neuroninio tinklo metodus.
Grupės tyrimas buvo paskelbtas m Išmanusis kompiuteris.
Atsižvelgiant į tai, kad „paveikslėlis vertas tūkstančio žodžių“, šiuo metu turimų teksto į vaizdą sistemų trūkumai vargu ar stebina. Jei norite sukurti paukščio atvaizdą, kompiuteriui pateikiamame aprašyme gali būti nurodytas paukščio dydis, kūno spalva ir snapo forma. Kad būtų sukurtas vaizdas, kompiuteris vis tiek turi nuspręsti, kaip rodyti paukštį, pvz., į kurią pusę paukštis atsuktas, kas turėtų būti fone ir ar jo snapas atidarytas, ar uždarytas.
Jei kompiuteris turėtų tai, ką mes laikome sveiko proto žiniomis, jis sėkmingiau priimtų sprendimus dėl neapibrėžtų detalių vaizdavimo. Pavyzdžiui, paukštis gali stovėti ant vienos ar dviejų kojų, bet ne ant trijų.
Vertinant kiekybiškai, palyginti su jo pirmtakais, autorių vaizdų generavimo tinklas pasiekė konkurencinius balus, naudodamas metriką, matuojančią tikslumą ir atstumą nuo tikrų vaizdų. Kokybiškai autoriai generuojamus vaizdus apibūdina kaip iš esmės nuoseklius, natūralius, ryškius ir ryškius.
„Tvirtai tikime, kad sveiko proto įdiegimas gali labai paskatinti teksto į vaizdą sintezės plėtrą“, – baigiama moksliniame straipsnyje.
Autorių neuroninis tinklas vaizdams iš teksto generuoti susideda iš trijų modulių. Pirmasis pagerina teksto aprašymą, kuris bus naudojamas kuriant vaizdą. „ConceptNet“, duomenų šaltinis, vaizduojantis bendrąsias kalbos apdorojimo žinias kaip susijusių mazgų diagramą, buvo naudojamas sveiko proto žinioms gauti, kurios turi būti įtrauktos į teksto aprašymą.
Autoriai pridėjo filtrą, kad atmestų nenaudingas žinias ir atrinktų aktualiausias žinias. Norėdami atsitiktinai suskirstyti sugeneruotus vaizdus, jie pridėjo šiek tiek statistinio triukšmo. Vaizdo generatoriaus įvestis susideda iš originalaus teksto aprašymo, analizuojamo kaip sakinys ir kaip atskiri žodžiai, bei pasirinktų sveiko proto žinių iš ConceptNet ir triukšmo.
Antrasis modulis generuoja vaizdus keliais etapais. Kiekvienas etapas atitinka vaizdo dydį, pradedant nuo mažo 64 x 64 pikselių vaizdo ir padidinant iki 128 x 128, o vėliau iki 256 x 256. Modulis remiasi autorių „adaptyviojo subjekto tobulinimo” vienetu, kuris apima sveiko proto žinias. detalių, reikalingų kiekvienam vaizdo dydžiui.
Trečiasis modulis nagrinėja sugeneruotus vaizdus ir atmeta tuos, kurie neatitinka pradinio aprašymo. Sistema yra „generacinis priešininkų tinklas“, nes turi šią trečiąją dalį, kuri tikrina generatoriaus darbą. Kadangi autorių tinklas yra „pagrįstas sveiku protu“, jie vadina savo tinklą CD-GAN.
CD-GAN buvo apmokytas naudojant Caltech-UCSD Birds-200-2011 duomenų rinkinį, kuriame kataloguojama 200 paukščių rūšių naudojant 11 788 specialiai anotuotus vaizdus.
Daugiau informacijos: Guokai Zhang ir kt., CD-GAN: bendru supratimu pagrįstas generacinis priešpriešinis tinklas su hierarchiniu patobulinimu teksto į vaizdą sintezei, Išmanusis kompiuteris (2023). DOI: 10.34133/computing.0017
Teikia išmanioji kompiuterija
Citata: Naujasis neuroninis tinklas naudoja sveiką protą, kad sukurtų netikrus paukščių vaizdus iš teksto (2023 m. balandžio 20 d.), gautas 2023 m. balandžio 21 d. iš https://techxplore.com/news/2023-04-neural-network-common-fake-bird.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.