Kreditas: Pixabay/CC0 Public Domain Virdžinijos universiteto kognityvinių mokslų mokslininkas Peras Sederbergas siūlo įdomų eksperimentą, kurį galite išbandyti namuose. Išsitraukite išmanųjį telefoną ir, naudodamiesi balso asistentu, pavyzdžiui, „Google” paieškos sistemos balsu, kuo lėčiau ištarkite žodį „aštuonkojis”.
Jūsų prietaisas stengsis pakartoti tai, ką ką tik pasakėte. Jis gali pateikti beprasmišką atsakymą arba pateikti kažką artimo, bet vis tiek ne visai tinkamo, pavyzdžiui, „pirštų pūliai” Bjauru!
Sederbergo teigimu, kai reikia priimti garsinius signalus, kaip tai daro žmonės ir kiti gyvūnai – nepaisant visos kompiuterinės galios, kurią šiai užduočiai atlikti skiria tokios didelės įmonės kaip „Google”, „Deep Mind”, IBM ir „Microsoft” – dabartinis dirbtinis intelektas vis dar šiek tiek prastai girdi.
Rezultatai gali būti įvairūs: nuo komiškų ir šiek tiek varginančių iki visiškai atstumiančių tiems, kurie turi kalbos problemų.
Tačiau remiantis naujausiais neuromokslo laimėjimais, UVA bendri tyrimai leido esamus dirbtinio intelekto neuroninius tinklus paversti technologijomis, kurios iš tiesų gali mus girdėti, nesvarbu, kokiu tempu kalbame.
Gilaus mokymosi įrankis vadinamas SITHCon ir, apibendrindamas įvesties duomenis, gali suprasti žodžius, sakomus kitu greičiu, nei buvo apmokytas tinklas
Šis naujas gebėjimas ne tik pakeis galutinio vartotojo patirtį; jis gali pakeisti dirbtinių neuronų tinklų „mąstymą” – leisti jiems efektyviau apdoroti informaciją. O tai gali pakeisti viską pramonėje, kurioje nuolat siekiama padidinti duomenų apdorojimo pajėgumus, sumažinti duomenų saugojimą ir sumažinti didžiulį dirbtinio intelekto paliekamą anglies pėdsaką.
Sederbergas, psichologijos docentas, einantis UVA Kognityvinių mokslų programos direktoriaus pareigas, bendradarbiaudamas su Bostono universiteto ir Indianos universiteto mokslininkais, kartu su magistrantu Brandonu Žaku (Brandon Jacques) suprogramavo veikiančią demonstracinę technologijos versiją.
„Mes pademonstravome, kad galime dekoduoti kalbą, ypač mastelinę kalbą, geriau nei bet koks mums žinomas modelis”, – sakė B. Žakas, kuris yra pirmasis straipsnio autorius.
B. Sederbergas pridūrė: „Mes save laikome nevykėlių grupe. Mes išsprendėme šią problemą, kurios neišsprendė didžiosios „Google”, „Deep Mind” ir „Apple” komandos.”
Tyrimas buvo pristatytas antradienį Baltimorėje vykusioje aukšto lygio Tarptautinėje mašinų mokymosi konferencijoje (International Conference on Machine Learning, ICML)
Dabartinis dirbtinio intelekto mokymas:
Jau kelis dešimtmečius, bet dar labiau pastaraisiais 20 metais, bendrovės į mašinas diegia sudėtingus dirbtinių neuronų tinklus, siekdamos imituoti, kaip žmogaus smegenys atpažįsta besikeičiantį pasaulį. Šios programos ne tik palengvina pagrindinės informacijos paiešką ir vartojimą; jos taip pat specializuojasi prognozuoti vertybinių popierių rinką, diagnozuoti medicinines būkles ir stebėti nacionalinio saugumo grėsmes, be daugelio kitų programų.
„Iš esmės mes bandome aptikti prasmingus modelius mus supančiame pasaulyje, – sakė Sederbergas. „Tie modeliai padės mums priimti sprendimus, kaip elgtis ir kaip derinti save su aplinka, kad gautume kuo daugiau naudos.”
Programuotojai, kurdami šią technologiją, iš pradžių rėmėsi smegenimis, todėl ir pavadinimas – neuroniniai tinklai.”
„Ankstyvieji dirbtinio intelekto tyrėjai paėmė pagrindines neuronų savybes ir tai, kaip jie tarpusavyje susiję, ir atkūrė jas kompiuteriniu kodu”, – sakė Sederbergas, – „Tačiau sprendžiant sudėtingas problemas, pavyzdžiui, mokant mašinas „girdėti” kalbą, programuotojai nesąmoningai pasuko kitu keliu nei tai, kaip iš tikrųjų veikia smegenys”, – sakė jis. Jie nesugebėjo pasukti kitu keliu, remdamiesi neuromokslo supratimo pokyčiais.
„Būdas, kuriuo šios didelės bendrovės sprendžia problemą, yra mesti į ją skaičiavimo išteklius”, – aiškino profesorius. „Taigi jos didina neuronų tinklus. Sritis, kurią iš pradžių įkvėpė smegenys, virto inžinerine problema.”
Iš esmės programuotojai įveda daugybę skirtingų balsių, naudodami skirtingus žodžius ir skirtingu greičiu, ir apmoko didelius tinklus naudodami procesą, vadinamą atgaline sklaida. Programuotojai žino, kokius atsakymus nori gauti, todėl nuolat tobulinamą informaciją cikliškai perduoda atgal. Tuomet dirbtinis intelektas įvesties aspektams pradeda teikti atitinkamą reikšmę, kad būtų gauti tikslūs atsakymai. Garsai tampa tinkamais naudoti teksto simboliais.
„Tai daroma daug milijonų kartų”, – sakė Sederbergas.
Nors mokymo duomenų rinkiniai, kurie naudojami kaip įvesties duomenys, patobulėjo, kaip ir skaičiavimo sparta, procesas vis dar nėra idealus, nes programuotojai prideda daugiau sluoksnių, kad aptiktų didesnius niuansus ir sudėtingumą – vadinamąjį gilųjį arba konvoliucinį mokymąsi.
Šiandien pasaulyje kalbama daugiau nei 7,000 kalbomis. Skirtumai atsiranda dėl akcentų ir tarmių, gilesnių ar aukštesnių balsių – ir, žinoma, greitesnės ar lėtesnės kalbos. Konkurentams kuriant vis geresnius produktus, kiekviename žingsnyje informaciją turi apdoroti kompiuteris.
Tai turi realių pasekmių aplinkai. 2019 tyrime nustatyta, kad anglies dioksido išmetimas dėl energijos, reikalingos vienam dideliam gilaus mokymosi modeliui apmokyti, prilygsta penkių automobilių gyvavimo trukmės pėdsakui
Praėjus trejiems metams, duomenų rinkiniai ir neuroniniai tinklai tik didėjo
Kaip smegenys iš tikrųjų girdi kalbą
Bostono universitete dirbantis Hovardas Eichenbaumas (Howard Eichenbaum) sukūrė terminą „laiko ląstelės”, t. y. reiškinį, kuriuo grindžiami šie nauji dirbtinio intelekto tyrimai. Neurologai, tyrinėję laiko ląsteles pelėse, o vėliau ir žmonėse, įrodė, kad smegenims interpretuojant laiko įvestį, pavyzdžiui, garsą, nervų aktyvumas padidėja. Šie atskiri neuronai, esantys hipokampe ir kitose smegenų dalyse, fiksuoja tam tikrus intervalus – duomenų taškus, kuriuos smegenys peržiūri ir interpretuoja pagal tarpusavio ryšį. Šios ląstelės yra greta vadinamųjų vietos ląstelių, kurios padeda mums formuoti mentalinius žemėlapius.
Laiko ląstelės padeda smegenims sukurti vieningą garso supratimą, nesvarbu, kaip greitai ar lėtai ateina informacija.
„Jei aš sakau „oooooooc-toooooo-pussssssssss”, jūs tikriausiai niekada anksčiau negirdėjote, kad kas nors sakytų „aštuonkojis” tokiu greičiu, ir vis tiek galite tai suprasti, nes būdas, kuriuo jūsų smegenys apdoroja šią informaciją, vadinamas „mastelio invariantu”, – sakė Sederbergas. „Iš esmės tai reiškia, kad jei jūs tai girdėjote ir išmokote dekoduoti tą informaciją vienu masteliu, jei dabar ta informacija ateina šiek tiek greičiau, šiek tiek lėčiau ar net daug lėčiau, jūs vis tiek ją suprasite.”
Pagrindinė taisyklės išimtis, pasak jo, yra informacija, kuri ateina labai greitai. Tokie duomenys ne visada bus verčiami. „Jūs prarasite informacijos bitus”, – sakė jis.
Kognityvinių tyrimų tyrėjo Marko Hovardo (Marc Howard) laboratorija Bostono universitete toliau plėtoja laiko ląstelės atradimą. Daugiau nei 20 metų bendradarbiaujantis su Sederbergu, Hovardas tyrinėja, kaip žmonės supranta savo gyvenimo įvykius. Jis šį supratimą paverčia matematika.
Hovardo lygtis, apibūdinanti klausos atmintį, apima laiko juostą. Laiko juosta sudaroma naudojant laiko ląsteles, kurios šaudo viena po kitos. Labai svarbu, kad lygtyje numatoma, jog laiko juosta išsitrina – ir tam tikru būdu – kai garsas juda į praeitį. Taip yra todėl, kad smegenų atmintis apie įvykį laikui bėgant tampa vis mažiau tiksli.
„Taigi yra tam tikras degimo modelis, kuris koduoja tai, kas įvyko tam tikru laiku praeityje, o informacija tampa vis labiau ir labiau išplaukusi, kuo toliau į praeitį, – sakė Sederbergas. „Šaunu tai, kad Marcas ir jo laboratorijoje dirbantis doktorantas matematiškai išsiaiškino, kaip tai turėtų atrodyti. Tada neurologai pradėjo ieškoti to įrodymų smegenyse.”
Laikas garsams suteikia kontekstą, o tai yra dalis to, kas suteikia prasmę tam, kas mums sakoma. Hovardas sakė, kad matematika tvarkingai suvedama: „Atrodo, kad laiko ląstelės smegenyse paklūsta šiai lygčiai, – sakė Hovardas.”
UVA koduoja balso dekoderį
Maždaug prieš penkerius metus Sederbergas ir Hovardas nustatė, kad dirbtinio intelekto sritis galėtų pasinaudoti tokiomis smegenų įkvėptomis reprezentacijomis. Bendradarbiaudama su Hovardo laboratorija ir konsultuodamasi su Zoranu Tiganjumi bei kolegomis iš Indianos universiteto, Sederbergo Kompiuterinės atminties laboratorija pradėjo kurti ir bandyti modelius
Maždaug prieš trejus metus Žakas padarė didžiulį proveržį, kuris padėjo koduoti gautą koncepcijos įrodymą. Algoritmas pasižymi suspaudimo forma, kurią prireikus galima išpakuoti – panašiai kaip kompiuteryje veikia zip failas, skirtas didelės apimties failams suspausti ir saugoti. Mašina saugo tik tokios raiškos garso „atmintį”, kuri bus naudinga vėliau, taip taupydama vietą saugykloje.
„Kadangi informacija yra logaritmiškai suspausta, keičiant įvesties mastelį modelis visiškai nepasikeičia, jis tiesiog persikelia”, – sakė Sederbergas.
SITHCon skirtas dirbtinio intelekto mokymas buvo lyginamas su jau egzistuojančiu ištekliumi, kuriuo nemokamai gali naudotis mokslininkai ir kuris vadinamas „laikiniu konvoliuciniu tinklu” Tikslas buvo paversti tinklą tinklu, apmokytu girdėti tik tam tikru greičiu
Procesas prasidėjo nuo pagrindinės kalbos – Morse kodo, kuriame taškams ir brūkšneliams vaizduoti naudojami ilgi ir trumpi garso pliūpsniai, ir buvo pereita prie atviro šaltinio rinkinio, kurio įvesties duomenys – angliškai kalbantys asmenys, tariantys skaičius nuo 1 iki 9.
Galiausiai papildomo mokymo neprireikė. Kai dirbtinis intelektas atpažino vieno greičio komunikaciją, jis negalėjo būti apgautas, jei kalbėtojas žodžius ištempdavo.
„Parodėme, kad SITHCon gali apibendrinti kalbą, kurios greitis didėja arba mažėja, o kiti modeliai nesugebėjo iššifruoti informacijos tokiu greičiu, kokio jie nematė mokymų metu”, – sakė Jacquesas.
Dabar UVA nusprendė savo kodą pateikti nemokamai, kad būtų galima pagilinti žinias. Komanda teigia, kad informacija turėtų būti pritaikyta bet kuriam neuroniniam tinklui, verčiančiam balsą.”
„Mes ketiname paskelbti ir išleisti visą kodą, nes tikime atviru mokslu, – sakė Sederbergas. „Tikimės, kad įmonės tai pamatys, labai susižavės ir pasakys, kad norėtų finansuoti mūsų tolesnį darbą. Mes pasinaudojome esminiu smegenų informacijos apdorojimo būdu, derindami galią ir efektyvumą, ir tik nubrėžėme paviršių to, ką šie dirbtinio intelekto modeliai gali padaryti.”
Tačiau žinodami, kad sukūrė geresnę pelytę, ar mokslininkai apskritai nerimauja dėl to, kaip naujoji technologija gali būti panaudota?
Sederbergas sakė esąs optimistiškai nusiteikęs, kad į dirbtinį intelektą, kuris girdi geriau, bus žiūrima etiškai, kaip teoriškai turėtų būti žiūrima į visas technologijas.”
„Šiuo metu šios bendrovės, bandydamos sukurti galingesnius ir naudingesnius įrankius, susiduria su skaičiavimo kliūtimis, – sakė jis. „Reikia tikėtis, kad teigiami rezultatai nusvers neigiamus. Jei galėsite daugiau savo mąstymo procesų perkelti į kompiuterius, tai padarys mus produktyvesniu pasauliu, geresniu ar blogesniu.”
Žakas, jaunavedys, sakė: „Įdomu manyti, kad mūsų darbas gali pagimdyti naują dirbtinio intelekto kryptį”
Citavimas: Alexa ir Siri, klausykitės! Tyrėjų komanda moko mašinas iš tikrųjų mus girdėti (2022, liepa 20) gauta 31 liepa 2022 iš https://techxplore.com/news/2022-07-alexa-siri-team-machines.html
Šiam dokumentui taikomos autorių teisės. Be raštiško leidimo negalima atgaminti jokios jo dalies, išskyrus sąžiningą naudojimą asmeninių studijų ar mokslinių tyrimų tikslais. Turinys pateikiamas tik informaciniais tikslais.