Mūsų požiūrio apžvalga. Mokymas yra padalintas į tris etapus. (i) Pirmajame etape treniruojamas konformerio pagrindas dideliame nepažymėtame kalbos duomenų rinkinyje, optimizuojant BEST-RQ tikslą. (ii) Mes tęsiame šio kalbos vaizdavimo mokymosi modelio mokymą, optimizuodami kelis tikslus, BEST-RQ tikslą nepažymėtoje kalboje, modalumo atitikimą, prižiūrimą ASR ir trukmės modeliavimo nuostolius suporuotuose kalbos ir nuorašo duomenims bei teksto atkūrimo tikslą su RNN. -T dekoderis nepažymėtam tekstui. (iii) Trečiasis etapas tiksliai sureguliuoja šį iš anksto paruoštą kodavimo įrenginį ASR arba AST užduotims atlikti. Kreditas: arXiv (2023). DOI: 10.48550/arxiv.2303.01037 Lapkričio mėnesį „Google“ paskelbė, kad imasi iniciatyvos, kurios kulminacija bus mašininio mokymosi modelio, galinčio atpažinti ir išversti 1000 labiausiai vartojamų pasaulio kalbų, sukūrimas. Per pastaruosius kelis mėnesius bendrovė dirbo siekdama šio tikslo ir paskelbė su projektu dirbančios komandos narių tinklaraščio įrašą. „Google“ komanda taip pat paskelbė dokumentą, kuriame aprašomas universalaus kalbos modelio (USM) įdiegimas. arXiv išankstinio spausdinimo serveris.
„Google“ teikiami atnaujinimai yra platesnio tikslo dalis: sukurti kalbos vertėją naudojant automatinį kalbos atpažinimą (ASR), galintį pagal poreikį išversti bet kurią pasaulio kalbą. Tuo tikslu jie nusprendė laikinai apriboti kalbų, kurias bando palaikyti, skaičių (100), nes mažai žmonių kalba rečiau. Tokioms retoms kalboms trūksta duomenų rinkinių mokymui.
Kaip dalį savo pranešimo, „Google“ apibūdino pirmuosius žingsnius siekiant savo USM – suskirstydama jį į kalbos modelių šeimas, parengtas naudojant milijardus valandų įrašytos kalbos ir apimančias daugiau nei 300 kalbų. Jie pažymi, kad jų USM jau šiuo metu naudojamas „YouTube“ vertimams uždarosiomis antraštėmis. Jie taip pat apibūdina bendrą kiekvienos šeimos modelį.
„Google“ paaiškina, kad modeliai kuriami naudojant mokymo „vamzdynus“, apimančius trijų rūšių duomenų rinkinius: nesusietą garsą, nesusietą tekstą ir susietus ASR duomenis. Jie taip pat pažymi, kad jie naudoja konformerinius modelius, kad tvarkytų numatomus projektui reikalingus 2B parametrus, ir tai darys atlikdami tris pagrindinius veiksmus: neprižiūrimą išankstinį mokymą, kelių tikslų prižiūrimą išankstinį mokymą ir prižiūrimą ASR mokymą. Galutinis rezultatas bus dviejų tipų modelių gamyba – tie, kurie yra paruošti ir ASR modeliai.
„Google“ taip pat teigia, kad dabartinėje būsenoje jo USM našumas yra panašus arba geresnis nei „Whisper“ modelis – bendros paskirties kalbos atpažinimo modelis, sukurtas „GitHub“ bendruomenės. Tikimasi, kad „Google“ ne tik naudos USM „YouTube“, bet ir sujungs savo modelį su kitomis AI programomis, įskaitant papildytos realybės įrenginius.
Daugiau informacijos: Yu Zhang ir kt., Google USM: Automatinio kalbos atpažinimo mastelio keitimas virš 100 kalbų, arXiv (2023). DOI: 10.48550/arxiv.2303.01037
Žurnalo informacija: arXiv
© „Science X Network“, 2023 m
Citata: „Google“ pateikia savo universalaus kalbos modelio (2023 m. kovo 7 d.) pažangos ataskaitą, gautą 2023 m. kovo 7 d. iš https://techxplore.com/news/2023-03-google-universal-speech.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.