Paskirstytos HPC aparatinės įrangos ir skirtingų ryšio kanalų iliustracija. Kreditas: Superkompiuterių žurnalas (2023). DOI: 10.1007/s11227-023-05587-4 Mašininio mokymosi algoritmas parodė gebėjimą apdoroti duomenis, viršijančius laisvą kompiuterio atmintį, nustatant didžiulio duomenų rinkinio pagrindines savybes ir suskirstant juos į valdomas partijas, kurios neužgožia kompiuterio aparatinės įrangos. Los Alamos nacionalinėje laboratorijoje sukurtas algoritmas pasiekė pasaulinį didžiulių duomenų rinkinių faktoringo rekordą per bandomąjį paleidimą Oak Ridge National Laboratory’s Summit – penktame greičiausiame pasaulyje superkompiuteryje.
Vienodai efektyvus nešiojamuosiuose ir superkompiuteriuose, labai keičiamo dydžio algoritmas išsprendžia aparatinės įrangos kliūtis, neleidžiančias apdoroti informacijos iš daug duomenų turinčių programų vėžio tyrimų, palydovinių vaizdų, socialinės žiniasklaidos tinklų, nacionalinio saugumo mokslo ir žemės drebėjimo tyrimų srityse.
„Mes sukūrėme neneigiamos matricos faktorizavimo metodo „atminties išeikvotą“ įgyvendinimą, leidžiantį suskaidyti didesnius duomenų rinkinius, nei buvo galima anksčiau tam tikroje aparatinėje įrangoje“, – sakė Los Alamos nacionalinės laboratorijos skaičiavimo fizikas Ismaelis Boureima. Boureima yra pirmasis šio straipsnio autorius Superkompiuterių žurnalas dėl rekordinio algoritmo.
„Mūsų diegimas tiesiog suskaido didelius duomenis į mažesnius vienetus, kuriuos galima apdoroti turimais ištekliais. Todėl tai yra naudinga priemonė, padedanti neatsilikti nuo eksponentiškai didėjančių duomenų rinkinių.”
„Tradicinė duomenų analizė reikalauja, kad duomenys atitiktų atminties apribojimus. Mūsų požiūris meta iššūkį šiai idėjai”, – sakė Manishas Bhattarai, mašininio mokymosi mokslininkas iš Los Alamos ir šio straipsnio bendraautoris.
„Pristatėme sprendimą, kuriame nėra atminties. Kai duomenų kiekis viršija turimą atmintį, mūsų algoritmas suskaido juos į mažesnius segmentus. Jis apdoroja šiuos segmentus po vieną, įvesdamas ir ištraukdamas iš atminties. Ši technika suteikia mums unikalią galimybę efektyviai valdyti ir analizuoti itin didelius duomenų rinkinius.
Šiuolaikinių ir nevienalyčių didelio našumo kompiuterių sistemų paskirstytas algoritmas gali būti naudingas tokioje mažoje aparatinėje įrangoje kaip stalinis kompiuteris arba tokia didelė ir sudėtinga kaip Chicoma, Summit ar būsimi Venado superkompiuteriai, sakė Boureima.
„Klausimas nebėra, ar įmanoma faktorizuoti didesnę matricą, o kiek laiko truks faktorizacija“, – sakė Boureima.
„Los Alamos“ diegimas naudoja aparatinės įrangos funkcijas, pvz., GPU, kad pagreitintų skaičiavimą ir greitą sujungimą, kad būtų galima efektyviai perkelti duomenis tarp kompiuterių. Tuo pačiu metu algoritmas efektyviai atlieka kelias užduotis vienu metu.
Neneigiamas matricos faktorizavimas yra dar viena didelio našumo algoritmų, sukurtų pagal SmartTensors projektą Los Alamose, dalis.
Boureima teigė, kad mašininio mokymosi metu neneigiamas matricos faktorizavimas gali būti naudojamas kaip neprižiūrimo mokymosi forma, norint išgauti prasmę iš duomenų. „Tai labai svarbu mašininiam mokymuisi ir duomenų analizei, nes algoritmas gali nustatyti paaiškinamas latentines duomenų savybes, kurios turi ypatingą reikšmę vartotojui.”
Rekordinis bėgimas
Per rekordinį Los Alamos komandos valdymą algoritmas apdorojo 340 terabaitų tankią matricą ir 11 eksabaitų retą matricą, naudodamas 25 000 GPU.
„Mes artėjame prie eksabaitų faktorizavimo, ko niekas kitas, mūsų žiniomis, nepadarė“, – sakė Boianas Aleksandrovas, naujojo straipsnio bendraautorius ir Los Alamos fizikas teorinis, vadovavęs „SmartTensors“ dirbtinio intelekto platformą kūrusiai komandai. .
Duomenų išskaidymas arba faktorinavimas yra specializuota duomenų gavybos technika, kuria siekiama išgauti reikiamą informaciją, supaprastinant duomenis į suprantamus formatus.
Bhattarai taip pat pabrėžė jų algoritmo mastelio keitimą, pažymėdamas: „Priešingai, įprasti metodai dažnai susiduria su kliūtimis, daugiausia dėl duomenų perdavimo tarp kompiuterio procesorių ir jo atminties vėlavimo“.
„Mes taip pat parodėme, kad nebūtinai reikia didelių kompiuterių“, – sakė Boureima. „Mastelio keitimas iki 25 000 GPU yra puiku, jei galite tai sau leisti, bet mūsų algoritmas bus naudingas staliniuose kompiuteriuose, kai anksčiau negalėjote apdoroti.
Daugiau informacijos: Ismael Boureima ir kt., Paskirstytas nenaudojamas NMF CPU / GPU architektūrose, Superkompiuterių žurnalas (2023). DOI: 10.1007/s11227-023-05587-4
Citata: Mašininis mokymasis valdo didžiulius duomenų rinkinius: algoritmas įveikia eksabaitų barjerą (2023 m. rugsėjo 11 d.), gautas 2023 m. rugsėjo 11 d. iš https://techxplore.com/news/2023-09-machine-masters-massive-algorithm-exabyte.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.