Praėjusiais metais MIT tyrėjai paskelbė, kad sukūrė „skysčius“ neuroninius tinklus, įkvėptus mažų rūšių smegenų: lanksčių, tvirtų mašininio mokymosi modelių, kurie mokosi darbe ir gali prisitaikyti prie kintančių sąlygų, kad būtų užtikrintas realaus pasaulio saugumas. – svarbios užduotys, tokios kaip vairavimas ir skrydis. Šių „skystų“ neuroninių tinklų lankstumas reiškė, kad mūsų prijungto pasaulio kraujo linija buvo sustiprinta, todėl buvo lengviau priimti sprendimus atliekant daugelį užduočių, susijusių su laiko eilučių duomenimis, pvz., smegenų ir širdies stebėjimu, orų prognozėmis ir akcijų kainomis.
Tačiau šie modeliai tampa brangūs, nes didėja jų neuronų ir sinapsių skaičius, todėl jiems reikia sudėtingų kompiuterinių programų, kad būtų išspręsta jų pagrindinė sudėtinga matematika. Ir visa ši matematika, panaši į daugelį fizinių reiškinių, tampa sunkiau išsprendžiama dėl dydžio, o tai reiškia, kad reikia skaičiuoti daug mažų žingsnelių, kad būtų pasiektas sprendimas.
Dabar ta pati mokslininkų komanda atrado būdą, kaip sumažinti šią kliūtį, išspręsdama diferencialinę lygtį, susijusią su dviejų neuronų sąveika per sinapses, kad būtų atrakinti naujo tipo greiti ir veiksmingi dirbtinio intelekto algoritmai. Šie režimai turi tas pačias skystųjų neuroninių tinklų charakteristikas – lankstūs, priežastiniai, tvirti ir paaiškinami – tačiau yra daug greitesni ir keičiami. Todėl šio tipo neuroniniai tinklai gali būti naudojami atliekant bet kokią užduotį, kuri apima duomenų įžvalgą laikui bėgant, nes jie yra kompaktiški ir pritaikomi net po treniruotės, o daugelis tradicinių modelių yra fiksuoti. Nebuvo žinomas sprendimas nuo 1907 m. – metų, kai buvo įvesta neuronų modelio diferencialinė lygtis.
Modeliai, praminti „uždarosios formos nepertraukiamo laiko“ (CfC) neuroniniu tinklu, pralenkė pažangiausius modelius atlikdami daugybę užduočių, žymiai pagreitindami ir atpažindami žmogaus veiklą iš judesio jutiklių, modeliuodami fizinį. imituoto vaikštančio roboto dinamika ir įvykiais pagrįstas nuoseklus vaizdo apdorojimas. Pavyzdžiui, atliekant medicininės prognozės užduotį, nauji modeliai buvo 220 kartų greitesni, kai buvo paimti 8000 pacientų.
Šiandien paskelbtas naujas darbas apie darbą Gamtos mašinos intelektas.
„Nauji mašininio mokymosi modeliai, kuriuos vadiname „CfC“, pakeičia diferencialinę lygtį, apibrėžiančią neurono skaičiavimą uždaros formos aproksimacija, išsaugodami gražias skystųjų tinklų savybes be skaitmeninės integracijos“, – sako MIT profesorė Daniela Rus, direktorė. Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) ir vyresnysis autorius naujame dokumente. „CfC modeliai yra priežastiniai, kompaktiški, paaiškinami ir veiksmingi treniruojami bei prognozuojami. Jie atveria kelią patikimam mašininiam mokymuisi saugumui svarbioms programoms.
Laikydami daiktus skystus
Diferencialinės lygtys leidžia mums apskaičiuoti pasaulio ar reiškinio būklę jam besivystant, bet ne visą laiką – tik žingsnis po žingsnio. Siekdama modeliuoti gamtos reiškinius laikui bėgant ir suprasti ankstesnį bei būsimą elgesį, pvz., žmogaus veiklos atpažinimą ar roboto kelią, komanda pasiekė daugybę matematinių gudrybių, kad surastų tik bilietą: „uždarosios formos“ sprendimą, kuris modeliuoja visas visos sistemos aprašymas vienu skaičiavimo žingsniu.
Naudojant jų modelius, šią lygtį galima apskaičiuoti bet kuriuo metu ateityje ir bet kuriuo metu praeityje. Negana to, skaičiavimo greitis yra daug didesnis, nes jums nereikia žingsnis po žingsnio spręsti diferencialinės lygties.
Įsivaizduokite neuroninį tinklą nuo galo iki galo, kuris gauna vairavimo įvestį iš kameros, sumontuotos ant automobilio. Tinklas yra išmokytas generuoti rezultatus, pvz., automobilio vairavimo kampą. 2020 m. komanda tai išsprendė naudodama skystuosius neuroninius tinklus su 19 mazgų, todėl 19 neuronų ir nedidelis suvokimo modulis galėtų vairuoti automobilį. Diferencialinė lygtis apibūdina kiekvieną tos sistemos mazgą. Naudojant uždaros formos sprendimą, jei jį pakeisite šiame tinkle, jis parodytų tikslią elgseną, nes tai yra geras tikrosios sistemos dinamikos apytikslis įvertinimas. Taigi jie gali išspręsti problemą su dar mažesniu neuronų skaičiumi, o tai reiškia, kad tai būtų greičiau ir pigiau.
Šie modeliai gali gauti įvestis kaip laiko eilutes (įvykius, įvykusius laiku), kurios gali būti naudojamos klasifikuojant, valdant automobilį, judant humanoidinį robotą arba prognozuojant finansinius ir medicininius įvykius. Naudodamas visus šiuos įvairius režimus, jis taip pat gali padidinti tikslumą, tvirtumą ir našumą bei, svarbiausia, skaičiavimo greitį, o tai kartais yra kompromisas.
Šios lygties sprendimas turi didelių pasekmių tobulinant tiek natūralaus, tiek dirbtinio intelekto sistemų tyrimus. „Kai turime uždaros formos neuronų ir sinapsių komunikacijos aprašą, galime sukurti skaičiavimo modelius smegenų su milijardais ląstelių, o tai šiandien neįmanoma dėl didelio neurologijos modelių skaičiavimo sudėtingumo. Uždarosios formos lygtis galėtų palengvinti tokius didelio lygmens modeliavimus, todėl atveria naujas mokslinių tyrimų galimybes, kad galėtume suprasti intelektą“, – sako MIT CSAIL tyrimų filialas Raminas Hasani, pirmasis naujojo dokumento autorius.
Nešiojamas mokymasis
Be to, yra ankstyvų įrodymų, kad Liquid CfC modeliai mokosi vienoje aplinkoje iš vaizdinių įvesties ir perkelia savo išmoktus įgūdžius į visiškai naują aplinką be papildomo mokymo. Tai vadinama nepaskirstymo apibendrinimu, kuris yra vienas iš svarbiausių atvirų dirbtinio intelekto tyrimų iššūkių.
„Neuroninių tinklų sistemas, pagrįstas diferencialinėmis lygtimis, sunku išspręsti ir pritaikyti, tarkime, milijonus ir milijardus parametrų. Gavus neuronų sąveikos vienas su kitu aprašymą, ne tik slenkstį, bet ir fizinės dinamikos tarp ląstelių sprendimą, galime sukurti didesnio masto neuroninius tinklus“, – sako Hasani. „Ši sistema gali padėti išspręsti sudėtingesnes mašininio mokymosi užduotis, sudarydama sąlygas geresniam vaizdavimo mokymuisi, ir turėtų būti pagrindiniai bet kurios būsimos įterptosios žvalgybos sistemos elementai.
„Naujausios neuroninių tinklų architektūros, tokios kaip neuroniniai ODE ir skystieji neuroniniai tinklai, turi paslėptus sluoksnius, sudarytus iš specifinių dinaminių sistemų, vaizduojančių begalines latentines būsenas, o ne aiškias sluoksnių krūvas“, – sako Sildomar Monteiro, AI ir mašinų mokymosi grupės vadovas, „Aurora Flight Sciences“. Boeing kompanija, kuri nedalyvavo šiame dokumente. „Šie netiesiogiai apibrėžti modeliai parodė naujausią našumą ir reikalauja daug mažiau parametrų nei įprastoms architektūroms. Tačiau praktinis jų pritaikymas buvo ribotas dėl didelių skaičiavimo išlaidų, reikalingų mokymui ir išvadoms. Jis priduria, kad šis dokumentas „rodo reikšmingą šios klasės neuroninių tinklų skaičiavimo efektyvumo pagerėjimą … [and] gali suteikti daugiau praktinių pritaikymų, susijusių su saugai svarbiomis komercinėmis ir gynybos sistemomis.
Hasani ir Mathias Lechner, MIT CSAIL postdoc, parašė Rus, kartu su MIT Alexander Amini, CSAIL postdoc. Lucas Liebenwein SM ’18, PhD ’21; Aaronas Ray, MIT elektros inžinerijos ir informatikos doktorantas ir CSAIL filialas; Maxas Tschaikowskis, Danijos Olborgo universiteto kompiuterių mokslų docentas; ir Geraldas Teschlis, Vienos universiteto matematikos profesorius.
Paspauskite Paminėjimai
Turgavietė
Tyrimų filialas Raminas Hasani kalbasi su Kimberly Adams iš Turgavietė apie tai, kaip jis ir jo CSAIL kolegos išsprendė diferencialinę lygtį, kilusią XX a. pradžioje, leidžiančią tyrėjams sukurti AI algoritmą, kuris gali mokytis vietoje ir prisitaikyti prie besikeičiančių modelių. Naujasis algoritmas „leis didesnio masto smegenų modeliavimą“, – aiškina Hasani.

