Normalizuota galutinė ekspozicija, kai µ = 0,1 kaip funkcija nuo , kintamo tolerancijos lygiui α. Didesnės α reikšmės ir mažesnė kliūtis (tai reiškia greitesnį aptikimą). Kreditas: IEEE operacijos dėl automatinio valdymo (2023). DOI: 10.1109/TAC.2023.3240925 Vaikai, kurie pirmą kartą mokosi vaikščioti, gali eiti per greitai ir nukristi arba įbėgti į baldą. Tačiau šis priežasties ir pasekmės elementas suteikia jiems neįkainojamos informacijos apie tai, kaip jų kūnai juda erdvėje, kad ateityje jie nenukristų.
Mašinos mokosi taip pat, kaip ir žmonės, įskaitant mokymąsi iš savo klaidų. Tačiau daugeliui mašinų, pavyzdžiui, savaeigiams automobiliams ir maitinimo sistemoms, sunku išmokti dirbti, kai kyla pavojus žmonių saugai. Kadangi mašininis mokymasis bręsta ir daugėja, didėja susidomėjimas jį taikyti labai sudėtingose, saugai svarbiose autonominėse sistemose. Tačiau šių technologijų pažadas trukdo mokymo procesui ir už jo ribų kylančios saugos rizikos.
Naujas mokslinis darbas ginčija mintį, kad norint išmokti saugių veiksmų nepažįstamoje aplinkoje reikia atlikti neribotą skaičių bandymų. Straipsnis, neseniai paskelbtas žurnale IEEE operacijos dėl automatinio valdymopristato naują požiūrį, kuris užtikrina, kad būtų visiškai pasitikintis mokymusi saugių veiksmų, kartu valdant pusiausvyrą tarp optimalumo, susidūrimo su pavojingomis situacijomis ir greito nesaugių veiksmų atpažinimo.
„Paprastai mašininis mokymasis ieško optimaliausio sprendimo, dėl kurio gali atsirasti daugiau klaidų. Tai yra problematiška, kai klaida gali reikšti atsitrenkimą į sieną”, – paaiškino Juanas Andresas Bazerque’as, Swanson elektros ir kompiuterių inžinerijos profesorius. Inžinerijos mokykla, kuri vadovavo tyrimui kartu su Johnso Hopkinso universiteto docentu Enrique Mallada.
„Šiame tyrime parodome, kad saugios politikos mokymasis iš esmės skiriasi nuo optimalios politikos mokymosi ir kad tai gali būti daroma atskirai ir efektyviai.
Mokslininkų komanda atliko tyrimus pagal du skirtingus scenarijus, kad parodytų savo koncepciją. Darydami pagrįstas prielaidas apie tyrinėjimą, jie sukūrė algoritmą, kuris aptinka visus nesaugius veiksmus per ribotą skaičių raundų. Komanda taip pat sprendė iššūkį rasti optimalią Markovo sprendimų proceso (MDP) politiką su beveik tikrais apribojimais.
Jų analizė pabrėžė kompromisą tarp laiko, reikalingo nesaugiems veiksmams aptikti pagrindinėje MDP, ir nesaugių įvykių poveikio lygio. MDP yra naudinga, nes ji suteikia matematinę sistemą sprendimų priėmimo modeliavimui situacijose, kai rezultatai iš dalies yra atsitiktiniai ir iš dalies kontroliuojami sprendimų priėmėjo.
Norėdami patvirtinti savo teorines išvadas, mokslininkai atliko modeliavimą, kuris patvirtino nustatytus kompromisus. Šios išvados taip pat parodė, kad saugos apribojimų įtraukimas gali pagreitinti mokymosi procesą.
„Šis tyrimas meta iššūkį vyraujančiam įsitikinimui, kad norint išmokti saugių veiksmų reikia atlikti neribotą skaičių bandymų“, – teigė Bazerque. „Mūsų rezultatai rodo, kad efektyviai valdydami kompromisus tarp optimalumo, nesaugių įvykių poveikio ir aptikimo laiko, galime pasiekti garantuotą saugumą be begalinio skaičiaus tyrinėjimų. Tai turi reikšmingų pasekmių robotikai, autonominėms sistemoms, dirbtiniam intelektui ir kt. “
Daugiau informacijos: Agustin Castellano ir kt., Mokymasis saugiai veikti esant ribotam poveikiui ir beveik tikru tikrumu, IEEE operacijos dėl automatinio valdymo (2023). DOI: 10.1109/TAC.2023.3240925
Citata: Saugesnio mašininio mokymosi inžinerija (2023 m. birželio 14 d.), gauta 2023 m. birželio 15 d. iš https://techxplore.com/news/2023-06-safer-machine.html
Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.

