Komandos daugiarūšio drabužių dizainerio sistema gali sukurti naują mados įvaizdį iš teksto, žmogaus parengtų pagrindinių punktų ir drabužių eskizo. Kreditas: Baldrati ir kt Dirbtinis intelektas (DI) neseniai pradėjo plisti į daugelį kūrybinių industrijų, pavyzdžiui, skaitmeniniams menininkams, architektams, interjero dizaineriams ir vaizdo redaktoriams skirtų įrankių pavidalu. Tokiais atvejais dirbtinis intelektas gali automatizuoti varginančius ar daug laiko reikalaujančius procesus, taip pat potencialiai įkvėpti menininkus ir palengvinti jų kūrybos procesą.
Florencijos universiteto, Modenos ir Emilijos Redžo bei Pizos universiteto mokslininkai neseniai ėmėsi tyrinėti dirbtinio intelekto modelių potencialą mados dizaino srityje. Iš anksto paskelbtame dokumente arXivjie pristatė naują kompiuterinės vizijos sistemą, kuri galėtų padėti mados dizaineriams vizualizuoti savo dizainą, parodydama, kaip jie gali atrodyti ant žmogaus kūno.
Daugumoje ankstesnių tyrimų, kuriuose buvo tiriamas dirbtinio intelekto naudojimas mados pramonėje, pagrindinis dėmesys buvo skiriamas skaičiavimo įrankiams, kurie gali rekomenduoti drabužius, panašius į pasirinktus naudotojo, arba modelius, kurie gali parodyti klientams, kaip drabužiai atrodys ant jų kūno (ty virtualios pasimatavimo sistemos). . Kita vertus, ši italų mokslininkų komanda siekė sukurti sistemą, kuri galėtų padėti dizainerių darbui, parodydama, kaip jų sukurti drabužiai gali atrodyti realiame gyvenime, kad jie galėtų rasti naujo įkvėpimo, nustatyti galimas problemas ir jei reikia, pakeiskite jų dizainą.
„Skirtingai nuo ankstesnių darbų, kuriuose daugiausia dėmesio buvo skirta virtualiam drabužių pasimatavimui, siūlome daugiarūšio sąlyginio mados įvaizdžio redagavimo užduotį, kuri vadovaujasi į žmogų orientuotų mados įvaizdžių generavimu, vadovaujantis įvairiarūšiais nurodymais, tokiais kaip tekstas, žmogaus kūno pozos, ir drabužių eskizus“, – savo straipsnyje rašė Alberto Baldrati, Davide Morelli ir jų kolegos.
„Mes sprendžiame šią problemą siūlydami naują architektūrą, pagrįstą latentinės difuzijos modeliais, o tai metodas, kuris anksčiau nebuvo naudojamas mados srityje.”
Užuot naudoję generatyvius priešingus tinklus (GAN), dirbtinių neuroninių tinklų architektūras, dažnai naudojamas naujiems tekstams ar vaizdams generuoti, mokslininkai nusprendė sukurti sistemą, pagrįstą latentinės difuzijos modeliais arba LDM. Kadangi jie yra mokomi suspaustoje ir mažesnių matmenų latentinėje erdvėje, LDM gali sukurti aukštos kokybės sintetinius vaizdus.
Nors šie daug žadantys modeliai buvo pritaikyti daugeliui užduočių, kurioms reikia sukurti dirbtinius vaizdus ar vaizdo įrašus, jie retai buvo naudojami mados įvaizdžio redagavimo kontekste. Daugumoje ankstesnių šios srities darbų buvo pristatytos GAN pagrįstos architektūros, kurios generuoja prastesnės kokybės vaizdus nei LDM.
Daugumoje esamų dirbtinio intelekto modelių, skirtų mados dizaino užduotims mokyti, duomenų rinkiniai apima tik mažos skyros drabužių vaizdus ir neapima informacijos, reikalingos kuriant mados vaizdinius pagal tekstinius raginimus ir eskizus. Taigi, norėdami efektyviai apmokyti savo modelį, Baldrati, Morelli ir jų kolegos pirmiausia turėjo atnaujinti esamus duomenų rinkinius arba sukurti naujus.
„Atsižvelgiant į tai, kad trūksta esamų duomenų rinkinių, tinkamų užduočiai atlikti, mes taip pat išplečiame du esamus mados duomenų rinkinius, būtent Dress Code ir VITON-HD, su multimodalinėmis anotacijomis, surinktomis pusiau automatiniu būdu“, – savo darbe paaiškino Baldrati, Morelli ir jų kolegos. . „Eksperimentiniai šių naujų duomenų rinkinių rezultatai rodo mūsų pasiūlymo veiksmingumą tiek tikroviškumo, tiek suderinamumo su tam tikromis multimodalinėmis įvestimis požiūriu.”
Pirminiais vertinimais šios tyrėjų komandos sukurtas modelis pasiekė labai daug žadančių rezultatų, sukurdamas tikroviškus drabužių vaizdus ant žmogaus kūno, įkvėptus žmonių eskizų ir specifinių teksto raginimų. Jų modelio šaltinio kodas ir multimodaliniai komentarai, kuriuos jie pridėjo prie duomenų rinkinių, netrukus bus išleisti „GitHub“.
Ateityje šis naujas modelis galėtų būti integruotas į esamus arba naujus mados dizainerių programinės įrangos įrankius. Tai taip pat galėtų padėti kurti kitas AI architektūras, pagrįstas LDM, skirtas realaus pasaulio kūrybinėms programoms.
„Tai vienas iš pirmųjų sėkmingų bandymų imituoti dizainerių darbą mados dizaino kūrybiniame procese ir gali būti atspirties taškas kapiliariniam difuzijos modelių pritaikymui kūrybinėse industrijose, žmogaus indėlio priežiūrai“, – sakė Baldrati, Morelli ir jų atstovai. savo darbe daro išvadą kolegos.
Daugiau informacijos: Alberto Baldrati ir kt., Multimodalinis drabužių dizaineris: į žmogų orientuoti latentinės difuzijos modeliai mados vaizdo redagavimui, arXiv (2023). DOI: 10.48550/arxiv.2304.02051
Žurnalo informacija: arXiv
© „Science X Network“, 2023 m
Citata: modelis, kuris naudoja žmonių raginimus ir eskizus tikroviškiems mados vaizdams generuoti (2023 m. balandžio 25 d.), gautas 2023 m. balandžio 25 d. iš https://techxplore.com/news/2023-04-human-prompts-generate-realistic-fashion.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.

