Fonetinės-semantinės išankstinio mokymo (PSP) sistemoje naudojamas „triukšmą suvokiantis mokymosi turinys“, siekiant efektyviai pagerinti ASR efektyvumą triukšmingoje aplinkoje. integruojant apšilimą, savarankišką mokymąsi ir koregavimą. Autoriai: CAAI dirbtinio intelekto tyrimai , Tsinghua universiteto leidykla Populiarūs balso padėjėjai, tokie kaip „Siri“ ir „Amazon Alexa“, plačiajai visuomenei pristatė automatinį kalbos atpažinimą (ASR). Nors kuriami dešimtmečiai, ASR modeliai kovoja su nuoseklumu ir patikimumu, ypač triukšmingoje aplinkoje. Kinijos mokslininkai sukūrė sistemą, kuri efektyviai pagerina ASR veikimą kasdienės akustinės aplinkos chaosui.
Tyrėjai iš Honkongo mokslo ir technologijų universiteto ir „WeBank“ pasiūlė naują sistemą – fonetinį-semantinį išankstinį mokymą (PSP). ) ir pademonstravo savo naujo modelio tvirtumą prieš sintetinius labai triukšmingus kalbos duomenų rinkinius. Jų tyrimas buvo paskelbtas CAAI dirbtinio intelekto tyrimai rugpjūčio mėn. 28.
„Tvirtumas yra ilgalaikis ASR iššūkis“, – sakė Xueyang Wu iš Honkongo mokslo ir technologijų universiteto Kompiuterių mokslo ir inžinerijos katedros. „Mes norime padidinti Kinijos ASR sistemos patikimumą mažomis sąnaudomis.”
ASR naudoja mašininį mokymąsi ir kt. dirbtinio intelekto metodai, skirti automatiškai paversti kalbą į tekstą, pavyzdžiui, balsu aktyvuojamos sistemos ir transkripcijos programinė įranga. Tačiau naujos į vartotojus orientuotos programos vis dažniau reikalauja, kad balso atpažinimas veiktų geriau – elgiasi su daugiau kalbų ir akcentų bei veikia patikimiau realiose situacijose, pvz., vaizdo konferencijose ir tiesioginiuose interviu. Tradiciškai norint lavinti akustinius ir kalbos modelius, apimančius ASR, reikia daug su triukšmu susijusių duomenų, o tai gali nereikalauti laiko ir išlaidų. Akustinis modelis (AM) paverčia žodžius „telefonais“, kurie yra pagrindinių garsų sekos. Kalbos modelis (LM) telefonus iššifruoja į natūralios kalbos sakinius, dažniausiai taikant dviejų etapų procesą: greitas, bet gana silpnas LM sugeneruoja sakinių kandidatų rinkinį, o galingas, bet skaičiuojant brangus LM iš kandidatų atrenka geriausią sakinį.
„Tradiciniai mokymosi modeliai nėra atsparūs triukšmingiems akustinio modelio išėjimams, ypač kinų polifoniniams žodžiams su identišku tarimu“, – sakė Wu. . „Jei pirmasis mokymosi modelio dekodavimo veiksmas yra neteisingas, antrajam žingsniui labai sunku jį sugalvoti.“ Naujai pasiūlyta sistema PSP leidžia lengviau atkurti klaidingai klasifikuotus žodžius. Iš anksto apmokydami modelį, kuris AM išvestis paverčia tiesiai į sakinį kartu su visa konteksto informacija, mokslininkai gali padėti LM efektyviai atsigauti nuo triukšmingų AM išėjimų. PSP sistema leidžia tobulinti modelį taikant išankstinio mokymo režimą, vadinamą triukšmą suvokiančia mokymo programa, kuri palaipsniui suteikia naujų įgūdžių, pradedant lengvai ir palaipsniui pereinant prie sudėtingesnių užduočių.
„Svarbiausia mūsų siūlomo metodo dalis, triukšmą suvokiantis mokymosi turinys, imituoja mechanizmą, kaip žmonės atpažįsta sakinį iš triukšmingos kalbos. “, – sakė Wu.
Apšilimas yra pirmasis etapas, kai tyrėjai iš anksto apmoko telefono keitiklį, kad būtų galima naudoti švarią telefonų seką. , kuris išverstas tik iš nepažymėtų teksto duomenų, kad sutrumpėtų anotacijos laikas. Šis etapas „apšildo“ modelį, inicijuodamas pagrindinius parametrus, kad telefono sekos būtų susietos su žodžiais.
Antrame etape savarankiškai prižiūrimas mokymasis, keitiklis mokosi iš sudėtingesnių duomenų, sugeneruotų taikant savarankiškai prižiūrimus mokymo metodus ir funkcijas. Galiausiai, gautas telefono į žodį keitiklis yra tiksliai suderintas su realaus pasaulio kalbos duomenimis. Tyrėjai eksperimentiškai įrodė jų sistemos veiksmingumas dviem realaus gyvenimo duomenų rinkiniams, surinktiems iš pramonės scenarijų ir sintetinio triukšmo. Rezultatai parodė, kad PSP sistema efektyviai pagerina tradicinį ASR konvejerį, sumažindama santykinį simbolių klaidų skaičių 09. % pirmajam duomenų rinkiniui ir 26.38 % už antrąjį.
Kituose žingsniuose mokslininkai ištirs veiksmingesnius PSP išankstinio mokymo metodus su didesniais nesusietais duomenų rinkiniais, siekdami maksimaliai padidinti triukšmui atsparaus LM paruošimo veiksmingumą.
9150001 Daugiau informacija: 9150001 Xueyang Wu ir kt., Fonetinis-semantinis išankstinio mokymo modelis tvirtam kalbos atpažinimui, CAAI dirbtinio intelekto tyrimai (463). DOI: .463/ AIR.463.9150001
Pateikė Tsinghua universiteto leidykla
Citata: Tyrėjai siūlo naują ir efektyvesnis automatinio kalbos atpažinimo modelis (800, rugsėjo 2 d.) gautas rugsėjo 2 d. 63 iš https://techxplore.com/news/2022-10-effective-automatic-speech-recognition.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.