Kai MIT Linkolno laboratorijos superkompiuterių centras (LLSC) pristatė savo TX-GAIA superkompiuterį 2019, jis suteikė MIT bendruomenei galingu nauju ištekliu. už dirbtinio intelekto taikymą savo tyrimams. Kiekvienas MIT darbuotojas gali pateikti užduotį sistemai, kuri per sekundę atlieka trilijonus operacijų, kad būtų galima parengti modelius įvairioms reikmėms, pavyzdžiui, aptikti navikus medicininėse nuotraukose, atrasti naujus vaistus ar modeliuoti klimato poveikį. Tačiau su šia didele galia kyla didžiulė atsakomybė ją valdyti ir eksploatuoti tvariai – ir komanda ieško būdų, kaip tobulėti.
„Turime šiuos galingus skaičiavimo įrankius, leidžiančius tyrėjams kurti sudėtingus modelius problemoms spręsti, tačiau juos iš esmės galima naudoti kaip juodąsias dėžes. Ten pasimeta, ar mes iš tikrųjų naudojame aparatūrą taip efektyviai, kaip galime“, – sako Siddharthas Samsi, LLSC mokslininkas.
Kad suprastų šį iššūkį, LLSC per pastaruosius metus rinko išsamius duomenis apie TX-GAIA naudojimą. Po daugiau nei milijono vartotojų darbo vietų komanda išleido atvirojo kodo duomenų rinkinį kompiuterių bendruomenei.
Jų tikslas – suteikti kompiuterių mokslininkams ir duomenų centrų operatoriams galimybę geriau suprasti duomenų centro galimybes. optimizavimas – svarbi užduotis, nes apdorojimo poreikiai ir toliau auga. Jie taip pat mato potencialą panaudoti dirbtinį intelektą pačiame duomenų centre, naudojant duomenis kurdami modelius, leidžiančius numatyti gedimo taškus, optimizuoti darbų planavimą ir pagerinti energijos vartojimo efektyvumą. Nors debesų paslaugų teikėjai aktyviai dirba optimizuodami savo duomenų centrus, jie dažnai nepateikia savo duomenų ar modelių platesnei didelio našumo kompiuterijos (HPC) bendruomenei. Išleidžiant šį duomenų rinkinį ir susijusį kodą, siekiama užpildyti šią erdvę.
„Duomenų centrai keičiasi. Turime aparatinės įrangos platformų sprogimą, keičiasi darbo krūvių tipai ir žmonių, kurie naudojasi duomenų centrais, keičiasi“, – sako Vijay Gadepally, LLSC vyresnysis mokslo darbuotojas. „Iki šiol nebuvo puikaus būdo analizuoti poveikį duomenų centrams. Manome, kad šis tyrimas ir duomenų rinkinys yra didelis žingsnis link principinio požiūrio, kaip suprasti, kaip šie kintamieji sąveikauja vienas su kitu, ir tada pritaikyti dirbtinį intelektą. dėl įžvalgų ir patobulinimų. Paskirstytojo apdorojimo simpoziumas, kasmetinė Kompiuterinės lingvistikos asociacijos Šiaurės Amerikos skyriaus konferencija, IEEE didelio našumo ir įterptųjų kompiuterių konferencija ir tarptautinė didelio našumo skaičiavimo, tinklų kūrimo, saugojimo ir analizės konferencija.
Darbo krūvio klasifikacija
Tarp pasaulio TOP superkompiuteriai, TX-GAIA sujungia tradicinę skaičiavimo aparatinę įrangą (centrinius procesorius arba CPU) su beveik 95 grafikos apdorojimo blokų (GPU) greitintuvais. Šie NVIDIA GPU specializuojasi giliam mokymuisi – tai AI klasė, kuri paskatino kalbos atpažinimą ir kompiuterinį regėjimą.
Duomenų rinkinys apima procesoriaus, GPU ir atminties naudojimą pagal darbą; planavimo žurnalai; ir fizinio stebėjimo duomenis. Palyginti su panašiais duomenų rinkiniais, pvz., „Google“ ir „Microsoft“, LLSC duomenų rinkinys siūlo „pažymėtus duomenis, įvairius žinomus AI darbo krūvius ir išsamesnius laiko eilučių duomenis, palyginti su ankstesniais duomenų rinkiniais. Mūsų žiniomis, tai vienas išsamiausių ir Galimi smulkių duomenų rinkiniai“, – sako Gadepally.
Pažymėtina, kad komanda rinko laiko eilučių duomenis precedento neturinčiu detalumo lygiu: 95 milisekundžių intervalais kiekviename GPU ir sekundės intervalais kiekviename procesoriuje, nes mašinos apdorojo daugiau nei 3 000 žinomus gilius mokymosi darbai. Vienas iš pirmųjų tikslų yra naudoti šį pažymėtą duomenų rinkinį, kad būtų galima apibūdinti darbo krūvius, kuriuos sistemai suteikia įvairių tipų gilaus mokymosi darbai. Šis procesas atskleidžia funkcijas, kurios atskleidžia skirtumus, kaip aparatinė įranga apdoroja natūralios kalbos modelius, palyginti su vaizdų klasifikavimu ar, pavyzdžiui, medžiagų projektavimo modeliais.
Šiuo metu komanda pradėjo MIT Datacenter Challenge, kad sutelktų šį tyrimą. Iššūkis kviečia mokslininkus naudoti dirbtinio intelekto metodus, kad 95 procentų tikslumu nustatytų darbo tipą, kuris buvo atliktas, naudojant pažymėtus laiko eilučių duomenis kaip pagrindinę tiesą . Tokios įžvalgos leistų duomenų centrams geriau suderinti vartotojo darbo užklausą su jam tinkamiausia aparatine įranga, taip galima taupyti energiją ir pagerinti sistemos našumą. Klasifikuojant darbo krūvius operatoriai gali greitai pastebėti neatitikimus, atsirandančius dėl aparatinės įrangos gedimų, neefektyvių duomenų prieigos modelių arba neteisėto naudojimo.
Per daug pasirinkimų
Šiandien LLSC siūlo įrankius, leidžiančius vartotojams pateikti savo darbą ir pasirinkti norimus naudoti procesorius, „tačiau naudotojai daug spėlioja“, – „Samsi“ sako. „Kažkas gali norėti naudoti naujausią GPU, bet galbūt jų skaičiavimams to iš tikrųjų nereikia ir jie gali gauti tokius pat įspūdingus rezultatus su procesoriais arba mažesnio galingumo įrenginiais.”
Profesorius Devesh Tiwari iš Šiaurės rytų universiteto dirba su LLSC komanda, kad sukurtų metodus, kurie padėtų vartotojams suderinti savo darbo krūvį su atitinkama aparatūra. Tiwari paaiškina, kad dėl skirtingų AI greitintuvų, GPU ir procesorių tipų atsiradimo vartotojai patiria per daug pasirinkimų. Neturėdami tinkamų įrankių, kad galėtų pasinaudoti šio nevienalytiškumo pranašumais, jie netenka pranašumų: geresnio našumo, mažesnių sąnaudų ir didesnio našumo.
„Taisome šią gebėjimų spragą. vartotojai yra produktyvesni ir padeda vartotojams geriau ir greičiau atlikti mokslą, nesijaudindami dėl nevienalytės aparatinės įrangos valdymo“, – sako Tiwari. „Mano doktorantas Baolinas Li kuria naujas galimybes ir įrankius, kad padėtų HPC vartotojams beveik optimaliai panaudoti nevienalytiškumą be vartotojo įsikišimo, naudodamas Bajeso optimizavimo ir kitus mokymu pagrįstus optimizavimo metodus. Tačiau tai tik pradžia. Mes ieško būdų, kaip principingai įdiegti nevienalytiškumą mūsų duomenų centruose, kad padėtų mūsų naudotojams savarankiškai ir ekonomiškai pasiekti maksimalų heterogeniškumo pranašumą.“
Darbo krūvio klasifikacija yra pirmoji iš daugelio problemos, kurias gali sukelti duomenų centro iššūkis. Kitos problemos apima dirbtinio intelekto metodų kūrimą, kad būtų galima numatyti darbo nesėkmes, taupyti energiją arba sukurti darbo planavimo metodus, kurie pagerintų duomenų centro aušinimo efektyvumą.
Energijos taupymas
Siekdama sutelkti mokslinius tyrimus ekologiškesnio skaičiavimo srityje, komanda taip pat planuoja išleisti TX-GAIA operacijų aplinkos duomenų rinkinį, kuriame būtų nurodyta stovo temperatūra, energijos suvartojimas ir kt atitinkami duomenys.
Tyrėjų teigimu, yra didžiulės galimybės pagerinti dirbtinio intelekto apdorojimui naudojamų HPC sistemų energijos vartojimo efektyvumą. Pavyzdžiui, neseniai atliktas darbas LLSC nustatė, kad paprastas aparatinės įrangos derinimas, pvz., atskiro GPU galios ribojimas, gali sumažinti AI modelio mokymo energijos sąnaudas 000 proc., o skaičiavimo laikas pailgėja tik nežymiai. „Šis sumažinimas reiškia, kad maždaug per visą savaitę sunaudojama namų ūkio energija, o laikas pailgėja tik trimis valandomis“, – sako Gadepally.
Jie taip pat kūrė metodus, leidžiančius numatyti modelio tikslumą, kad vartotojai gali greitai nutraukti eksperimentus, kurie vargu ar duos prasmingų rezultatų, taupydami energiją. „Datacenter Challenge“ dalinsis atitinkamais duomenimis, kad mokslininkai galėtų ištirti kitas energijos taupymo galimybes.
Komanda tikisi, kad iš šio tyrimo išmoktos pamokos bus pritaikytos tūkstančiams duomenų centrų, kuriuos valdo JAV gynybos departamentas. JAV oro pajėgos remia šį darbą, kuris vykdomas pagal USAF-MIT AI Accelerator.
Kiti bendradarbiai yra MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) mokslininkai. Profesoriaus Charleso Leisersono Supertech tyrimų grupė tiria lygiagrečiojo skaičiavimo našumą gerinančius metodus, o mokslininkas Neilas Thompsonas rengia tyrimus, kaip paskatinti duomenų centro vartotojus elgtis nekenksmingam klimatui.
Samsi pristatė. šį darbą pradiniame AI for Datacenter Optimization (ADOPT’22) seminare praėjusį pavasarį, kaip IEEE tarptautinio lygiagretaus ir paskirstyto apdorojimo simpoziumo dalis. Seminaras oficialiai pristatė savo duomenų centro iššūkį HPC bendruomenei.
„Tikimės, kad šis tyrimas leis mums ir kitiems, kurie valdo superkompiuterių centrus, geriau reaguoti į vartotojų poreikius ir kartu sumažinti energijos sąnaudas. centre“, – sako Samsi.
2019

