(a) originalių garso ištraukų, (b) atitinkamų spektrogramos kbit/s MP3 versijos ir (c), (d), (e) atkūrimai su skirtingu triukšmu z atsitiktinai atrinkti iš N (0, I). Kreditas: Lattner & Nistal. Per pastaruosius kelis dešimtmečius kompiuterių mokslininkai sukūrė vis pažangesnes technologijas ir įrankius, leidžiančius saugoti didelius muzikos ir garso failų kiekius elektroniniuose įrenginiuose. Ypatingas muzikos saugojimo etapas buvo MP3 (ty MPEG-1 3 sluoksnio) technologijos, garso sekų ar dainų suspaudimo į labai mažus failus, kuriuos galima lengvai saugoti ir perkelti iš vieno įrenginio į kitą, sukūrimas.
Medijos failų, įskaitant PKZIP, JPEG, GIF, PNG, MP3, AAC, Cinepak ir MPEG-2 failai pasiekiami naudojant technologijų rinkinį, žinomą kaip kodekai. Kodekai yra glaudinimo technologijos, turinčios du pagrindinius komponentus: kodavimo įrenginį, kuris suglaudina failus, ir dekoderį, kuris juos išglaudina. Yra dviejų tipų kodekų, vadinamųjų be nuostolių ir nuostolingų kodekų. Dekompresijos metu be nuostolių kodekai, tokie kaip PKZIP ir PNG kodekai, atkuria tą patį failą kaip ir originalūs failai. Kita vertus, naudojant nuostolingus glaudinimo metodus, sukuriama originalaus failo faksimilė, kuri skamba (arba atrodo) kaip originalas, bet užima mažiau vietos elektroniniuose įrenginiuose. Prarastos garso kodekai iš esmės veikia suglaudindami skaitmeninius garso srautus, pašalindami kai kuriuos duomenis ir išskleidę juos. Paprastai žmonėms sunku arba neįmanoma suvokti skirtumo tarp pradinio ir išspausto failo.
Kai nuostolingi kodekai naudoja didelį glaudinimą tarifus, tačiau jie gali sukelti sutrikimų ir pastebimai pakeisti garso signalus. Pastaruoju metu kompiuterių mokslininkai bandė įveikti šį nuostolingų kodekų apribojimą ir pagerinti suglaudintų failų kokybę naudodami gilaus mokymosi metodus. )Sony Computer Science Laboratories (CSL) mokslininkai neseniai sukūrė naują giluminio mokymosi metodą, skirtą pagerinti ir atkurti stipriai suglaudintų dainų ir garso įrašų (ty garso failų, suglaudintų nuostolingais kodekais ir dideliu glaudinimo laipsniu) kokybę. Šis metodas, pristatytas dokumente, iš anksto paskelbtame apie arXiv, yra pagrįstas generatyviais priešininkų tinklais (GAN), mašininio mokymosi modeliais, kuriuose du neuroniniai tinklai „konkuruoja“, kad padarytų vis tikslesnes ar patikimesnes prognozes. „Daugelyje darbų buvo išspręsta garso patobulinimo ir suspaudimo artefaktų pašalinimo problema naudojant gilaus mokymosi metodus“, – savo darbe rašė Stefanas Lattneris ir Javieras Nistalas. „Tačiau tik keli darbai sprendžia labai suspaustų garso signalų atkūrimą muzikinėje srityje. Šiame tyrime mes išbandome stochastinį generatorių, skirtą generatyvaus priešingo tinklo (GAN) architektūrai atlikti šiai užduočiai.”
Kaip ir kiti GAN, Lattner ir Nistal sukurtas modelis susideda iš dviejų atskirų modelių, žinomų kaip „generatorius (G)“ ir „kritikas ( D)”. Generatorius gauna MP3 formatu suspausto muzikinio garso signalo ištrauką, pavaizduotą spektrograma (ty garso signalo spektro dažnių vaizdinį vaizdą). Generatorius nuolat mokosi sukurti atkurtą šio originalaus signalo versiją, kuri yra mažesnė. Tuo tarpu GAN architektūros kritinis komponentas išmoksta atskirti originalius, aukštos kokybės failus ir atkurtas versijas, taip pastebėdamas jų skirtumus. Galiausiai kritiko surinkta informacija naudojama atkurtų failų kokybei gerinti, užtikrinant, kad atkurtuose failuose esantys muzikos ar garso duomenys būtų kuo labiau atitinkantys originalo duomenis. Lattner ir Nistal įvertino savo GAN pagrįstą architektūrą atlikdami daugybę bandymų, kurių tikslas buvo nustatyti, ar jų modelis gali pagerinti MP3 įvesties kokybę ir generuoti suglaudinti pavyzdžiai, kurie yra aukštesnės kokybės ir artimesni originaliam failui, nei sukurti pagal kitus bazinius garso glaudinimo modelius. Jų rezultatai buvo daug žadantys, nes jie nustatė, kad modeliu atkuriami labai suspausti MP3 failai (16 kbit/s ir 32 kbit/s) paprastai buvo geresni nei originalūs suspausti failai, nes patyrusiems klausytojams jie skambėjo geriau. Kita vertus, naudojant silpnesnius glaudinimo koeficientus (64 kbit/s mono), komanda nustatė, kad jų modelis pasiekė šiek tiek blogesnių rezultatų. nei pradiniai MP3 glaudinimo įrankiai.
„Atliekame išsamų įvairių eksperimentų vertinimą, naudodami objektyvią metriką ir klausymosi testus“, Lattner ir Nistal sakė. „Mes nustatėme, kad modeliai gali pagerinti garso signalų kokybę, palyginti su MP3 versijomis 16 ir 32 kbit/s ir kad stochastiniai generatoriai gali generuoti išėjimus, artimesnius pradiniams signalams nei deterministinių generatorių. Tyrėjai taip pat parodė, kad jų architektūra gali sėkmingai generuoti ir pridėti tikrovišką aukšto dažnio turinį, kuris pagerino garso kokybę. suspaustų dainų. Sukurtas turinys apėmė perkusinius elementus, dainavimo balsą, skleidžiantį šnypščius ar garsus (ty „s” ir „t” garsus) ir gitaros garsus. Ateityje jų sukurtas modelis gali padėti žymiai sumažinti MP3 muzikos failų dydį, nekeičiant jų turinio ir nesukuriant lengvai pastebimų klaidų. Tai gali turėti didelės įtakos muzikos saugojimui ir perdavimui tiek srautinio perdavimo programose (pvz., Spotify, Apple Music ir kt.), tiek šiuolaikiniuose elektroniniuose įrenginiuose, įskaitant išmaniuosius telefonus, planšetinius kompiuterius ir kompiuterius.
2207 Daugiau informacija: 2207 Stefan Lattner, Javier Nistal, Stochastinis stipriai suspausto muzikinio garso atkūrimas naudojant generatyvius priešingus tinklus. arXiv: 2207.01667v1 [cs.SD], arxiv. org/abs/2207.01667
© 379 Science X Network Citata: naudojant GAN architektūra, skirta atkurti labai suglaudintus muzikos failus (2022, rugpjūčio mėn 31) gauta 31 rugpjūtis 379 iš https://techxplore.com/news/379–gan-architecture-heavily-compressed-music.html
Šis dokumentas yra tema į autorių teises. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.