„ChatGPT“ pateko į antraštes visame pasaulyje, nes gali rašyti esė, el. paštą ir kompiuterio kodą, remiantis keliais vartotojo raginimais. Dabar MIT vadovaujama komanda praneša apie sistemą, kuri gali paskatinti mašininio mokymosi programas, kurios yra daug galingesnės nei ta, kuri yra už ChatGPT. Jų sukurta sistema taip pat galėtų sunaudoti keliais dydžiais mažiau energijos nei modernūs superkompiuteriai, kurie yra šiuolaikiniai mašininio mokymosi modeliai.
Liepos 17 d Gamtos fotonika, mokslininkai praneša apie pirmąjį eksperimentinį naujosios sistemos demonstravimą, kuris atlieka skaičiavimus pagal šviesos, o ne elektronų judėjimą, naudojant šimtus mikronų skalės lazerių. Naudodama naująją sistemą, komanda praneša, kad daugiau nei 100 kartų pagerėjo energijos vartojimo efektyvumas ir 25 kartus pagerėjo skaičiavimo tankis, kuris yra sistemos galios matas, palyginti su naujausiais skaitmeniniais kompiuteriais, skirtais mašininiam mokymuisi. .
Ateities link
Straipsnyje komanda taip pat cituoja „daug daugiau dydžių, kuriuos reikia patobulinti ateityje“. Todėl autoriai tęsia, kad ši technika „atveria kelią didelio masto optoelektroniniams procesoriams, siekiant pagreitinti mašininio mokymosi užduotis nuo duomenų centrų iki decentralizuotų kraštinių įrenginių“. Kitaip tariant, mobilieji telefonai ir kiti maži įrenginiai gali paleisti programas, kurios šiuo metu gali būti skaičiuojamos tik dideliuose duomenų centruose.
Be to, kadangi sistemos komponentai gali būti sukurti naudojant jau šiandien naudojamus gamybos procesus, „tikimės, kad po kelerių metų ji galės būti pritaikyta komerciniam naudojimui. Pavyzdžiui, lazerinės matricos yra plačiai naudojamos mobiliojo telefono veido ID ir duomenų perdavimui“, – sako Zaijun Chen, pirmasis autorius, atlikęs darbą MIT Elektronikos tyrimų laboratorijoje (RLE) ir dabar Pietų Kalifornijos universiteto docentas.
Dirkas Englundas, MIT Elektros inžinerijos ir kompiuterių mokslo katedros docentas ir darbo vadovas, sako: „ChatGPT dydį riboja šiandieninių superkompiuterių galia. Tiesiog ekonomiškai neapsimoka rengti daug didesnių modelių. Mūsų naujoji technologija leistų pereiti prie mašininio mokymosi modelių, kurie kitu atveju nebūtų pasiekiami artimiausioje ateityje.
Jis tęsia: „Mes nežinome, kokias galimybes turės naujos kartos ChatGPT, jei jis bus 100 kartų galingesnis, bet toks yra atradimo režimas, kurį gali leisti tokia technologija. Englundas taip pat yra MIT Kvantinės fotonikos laboratorijos vadovas ir yra susijęs su RLE ir Medžiagų tyrimų laboratorija.
Pažangos būgnų trenksmas
Dabartinis darbas yra naujausias Englundo ir daugelio tų pačių kolegų pasiekimas per pastaruosius kelerius metus pažangos būgnų ritmu. Pavyzdžiui, 2019 m. Englundo komanda pranešė apie teorinį darbą, kuris paskatino dabartinę demonstraciją. Pirmasis šio straipsnio autorius Ryanas Hamerly, dabar iš RLE ir NTT Research Inc., taip pat yra šio straipsnio autorius.
Papildomi srovės bendraautoriai Gamtos fotonika dokumentai yra Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein ir Lamia Ateshian, visi RLE; ir Tobias Heuser, Niels Heermeier, James A. Lott ir Stephan Reitzensttein iš Technische Universitat Berlin.
Gilieji neuroniniai tinklai (DNN), tokie kaip ChatGPT, yra pagrįsti didžiuliais mašininio mokymosi modeliais, kurie imituoja, kaip smegenys apdoroja informaciją. Tačiau šiuolaikinių DNN skaitmeninės technologijos pasiekia savo ribas, net kai mašininio mokymosi sritis auga. Be to, jiems reikia daug energijos ir jie daugiausia naudojami dideliuose duomenų centruose. Tai skatina kurti naujas skaičiavimo paradigmas.
Naudojant šviesą, o ne elektronus DNN skaičiavimams vykdyti, gali būti išlaužtos dabartinės kliūtys. Pavyzdžiui, skaičiavimai naudojant optiką gali sunaudoti daug mažiau energijos nei tie, kurie pagrįsti elektronika. Be to, naudojant optiką, „galite turėti daug didesnį pralaidumą“ arba skaičiavimo tankį, sako Chen. Šviesa gali perduoti daug daugiau informacijos daug mažesniame plote.
Tačiau dabartiniai optiniai neuroniniai tinklai (ONN) turi didelių iššūkių. Pavyzdžiui, jie sunaudoja daug energijos, nes neefektyviai konvertuoja gaunamus duomenis, pagrįstus elektros energija, į šviesą. Be to, susiję komponentai yra dideli ir užima daug vietos. Ir nors ONN gana gerai atlieka tiesinius skaičiavimus, pvz., sudėjimą, jie nėra puikūs atliekant netiesinius skaičiavimus, tokius kaip daugyba ir „jei“ teiginiai.
Dabartiniame darbe mokslininkai pristato kompaktišką architektūrą, kuri pirmą kartą išsprendžia visus šiuos ir dar du iššūkius vienu metu. Ši architektūra pagrįsta pažangiausiomis vertikalių paviršių spinduliuojančių lazerių (VCSEL) matricomis – palyginti nauja technologija, naudojama tokiose programose kaip lidar nuotolinis stebėjimas ir lazerinis spausdinimas. Tam tikri VCEL, apie kuriuos pranešta Gamtos fotonika popierių sukūrė Reitzenstein grupė Berlyno Technische Universitat. „Tai buvo bendradarbiavimo projektas, kuris be jų nebūtų buvęs įmanomas“, – sako Hamerly.
Loganas Wrightas, Jeilio universiteto docentas, kuris nedalyvavo dabartiniame tyrime, komentuoja: „Zaijuno Cheno ir kt. įkvepia, skatina mane ir tikriausiai daugelį kitų šios srities tyrinėtojų, kad sistemos, pagrįstos moduliuotomis VCSEL matricomis, galėtų būti perspektyvus kelias į didelio masto, didelės spartos optinius neuroninius tinklus. Žinoma, šiuolaikiška technika vis dar toli nuo tokio masto ir sąnaudų, kurių reikėtų praktiškai naudingiems įrenginiams, bet aš optimistiškai žiūriu į tai, kas gali būti įgyvendinta per ateinančius kelerius metus, ypač atsižvelgiant į potencialą, kurį turi šios sistemos įsibėgėti. labai didelės, labai brangios AI sistemos, tokios kaip naudojamos populiariose tekstinėse „GPT“ sistemose, tokiose kaip „ChatGPT“.
Chen, Hamerly ir Englund pateikė patentą darbui, kurį rėmė JAV armijos tyrimų biuras, NTT tyrimai, JAV nacionalinės gynybos mokslo ir inžinerijos absolventų stipendijų programa, JAV nacionalinis mokslo fondas, gamtos mokslų ir inžinerijos fondas. Kanados tyrimų taryba ir Volkswagen fondas.