Diagramų antraštės, paaiškinančios sudėtingas tendencijas ir modelius, yra svarbios siekiant pagerinti skaitytojo gebėjimą suprasti ir išsaugoti pateikiamus duomenis. Žmonėms su regėjimo negalia informacija antraštėje dažnai yra vienintelė priemonė suprasti diagramą.
Tačiau efektyvių, išsamių antraščių rašymas yra daug darbo reikalaujantis procesas. Nors autotitrų sudarymo metodai gali palengvinti šią naštą, jie dažnai stengiasi apibūdinti pažinimo ypatybes, kurios suteikia papildomo konteksto.
Siekdami padėti žmonėms kurti aukštos kokybės diagramų antraštes, MIT mokslininkai sukūrė duomenų rinkinį, skirtą patobulinti automatines antraščių sistemas. Naudodamiesi šiuo įrankiu, mokslininkai galėtų išmokyti mašininio mokymosi modelį keisti į diagramos antraštę įtraukto turinio sudėtingumo lygį ir tipą, atsižvelgdami į vartotojų poreikius.
MIT tyrėjai išsiaiškino, kad mašininio mokymosi modeliai, išmokyti automatiškai sudaryti antraštes su jų duomenų rinkiniu, nuolat generuoja tikslius, semantiškai turtingus antraštes ir aprašo duomenų tendencijas bei sudėtingus modelius. Kiekybinė ir kokybinė analizė atskleidė, kad jų modeliai diagramas titruoja efektyviau nei kitos automatinio antraštės sistemos.
Komandos tikslas yra pateikti duomenų rinkinį, vadinamą VisText, kaip įrankį, kurį tyrėjai gali naudoti spręsdami sudėtingą diagramų automatinio antraštės problemą. Šios automatinės sistemos galėtų padėti pateikti antraštes internetinėms diagramoms be antraštės ir pagerinti prieinamumą žmonėms su regėjimo negalia, sako viena iš pagrindinių autorių Angie Boggust, MIT elektros inžinerijos ir informatikos magistrantė bei kompiuterių mokslo ir kompiuterių mokslo vizualizacijos grupės narė. Dirbtinio intelekto laboratorija (CSAIL).
„Stengėmės į savo duomenų rinkinį įterpti daug žmogiškųjų vertybių, kad kai mes ir kiti tyrinėtojai kurdami automatines diagramų antraštes sistemas, nesusikurtume modelių, kurių žmonės nori ar kurių nereikia“, – ji. sako.
Straipsnyje prie Boggust prisijungia vienas iš pirmaujančių autorių ir kolegos absolventas Benny J. Tangas ir vyresnysis autorius Arvindas Satyanarayanas, MIT kompiuterių mokslų docentas, vadovaujantis CSAIL vizualizacijos grupei. Tyrimas bus pristatytas kasmetiniame Kompiuterinės lingvistikos asociacijos susirinkime.
Į žmogų orientuota analizė
Mokslininkai buvo įkvėpti sukurti VisText iš ankstesnio darbo vizualizacijos grupėje, kuri ištyrė, kas yra geras diagramos antraštė. Šiame tyrime mokslininkai nustatė, kad regintys vartotojai ir aklieji ar silpnaregiai renkasi skirtingas semantinio turinio sudėtingumo nuostatas antraštėje.
Grupė norėjo įtraukti į žmogų orientuotą analizę į autotitrų tyrimus. Norėdami tai padaryti, jie sukūrė „VisText“ – diagramų ir susijusių antraščių duomenų rinkinį, kuris galėtų būti naudojamas mašininio mokymosi modeliams ugdyti tikslius, semantiškai turtingus, pritaikomus antraštes.
Sukurti efektyvias autotitrų sistemas nėra lengva užduotis. Esami mašininio mokymosi metodai dažnai bando sudaryti antraštes diagramoms taip, kaip būtų paveikslėlyje, tačiau žmonės ir modeliai natūralius vaizdus interpretuoja kitaip nei mes skaitome diagramas. Kiti metodai visiškai praleidžia vaizdinį turinį ir pateikia diagramos antraštes naudodami pagrindinę duomenų lentelę. Tačiau paskelbus diagramas tokios duomenų lentelės dažnai nepasiekiamos.
Atsižvelgiant į vaizdų ir duomenų lentelių naudojimo trūkumus, „VisText“ taip pat vaizduoja diagramas kaip scenų diagramas. Scenos diagramos, kurias galima išgauti iš diagramos vaizdo, apima visus diagramos duomenis, bet taip pat apima papildomą vaizdo kontekstą.
„Scenos grafikas yra tarsi geriausias iš abiejų pasaulių – joje yra beveik visa vaizde esanti informacija, o ją lengviau išgauti iš vaizdų nei iš duomenų lentelių. Kadangi tai taip pat tekstas, galime panaudoti šiuolaikinių didelių kalbų modelių pažangą, skirtą antraščių sudarymui“, – aiškina Tangas.
Jie sudarė duomenų rinkinį, kuriame yra daugiau nei 12 000 diagramų, kurių kiekviena pateikiama kaip duomenų lentelė, vaizdas ir scenos grafikas, taip pat susijusių antraščių. Kiekviena diagrama turi dvi atskiras antraštes: žemo lygio antraštę, apibūdinančią diagramos konstrukciją (kaip ir jos ašių diapazonus), ir aukštesnio lygio antraštę, apibūdinančią statistiką, duomenų ryšius ir sudėtingas tendencijas.
Tyrėjai sukūrė žemo lygio subtitrus naudodami automatizuotą sistemą, o aukštesnio lygio subtitrus surinko iš žmonių darbuotojų.
„Mūsų antraštes informavo du pagrindiniai ankstesnių tyrimų elementai: esamos gairės dėl prieinamų vaizdinės medijos aprašymų ir konceptualus mūsų grupės semantinio turinio skirstymo į kategorijas modelis. Tai užtikrino, kad mūsų antraštėse būtų pateikti svarbūs žemo lygio diagramos elementai, pvz., ašys, svarstyklės ir regos negalią turintiems skaitytojams skirti vienetai, kartu išlaikant žmonių skirtumus, kaip rašyti antraštes“, – sako Tangas.
Diagramų vertimas
Surinkę diagramų vaizdus ir antraštes, mokslininkai naudojo „VisText“, kad išmokytų penkis mašininio mokymosi modelius, skirtus automatiniam antraštei. Jie norėjo pamatyti, kaip kiekvienas vaizdas – vaizdas, duomenų lentelė ir scenos grafikas – ir atvaizdų deriniai paveikė antraštės kokybę.
„Galite galvoti apie diagramos antraščių modelį, pavyzdžiui, kalbos vertimo modelį. Tačiau užuot sakę, išverskite šį vokišką tekstą į anglų kalbą, mes sakome, kad išverskite šią „diagramos kalbą“ į anglų kalbą“, – sako Boggust.
Jų rezultatai parodė, kad modeliai, parengti naudojant scenos grafikus, veikė taip pat arba geriau nei tie, kurie buvo mokomi naudojant duomenų lenteles. Kadangi scenos grafikus lengviau išgauti iš esamų diagramų, mokslininkai teigia, kad jie gali būti naudingesni.
Jie taip pat apmokė modelius su žemo ir aukšto lygio antraštėmis atskirai. Ši technika, žinoma kaip semantinio priešdėlio derinimas, leido jiems išmokyti modelį keisti antraštės turinio sudėtingumą.
Be to, jie atliko kokybinį titrų, sukurtų taikant veiksmingiausią metodą, tyrimą ir suskirstė į šešis dažniausiai pasitaikančių klaidų tipus. Pavyzdžiui, krypties klaida įvyksta, jei modelis sako, kad tendencija mažėja, kai ji iš tikrųjų didėja.
Šis smulkus, tvirtas kokybinis įvertinimas buvo svarbus norint suprasti, kaip modelis daro klaidas. Pavyzdžiui, naudojant kiekybinius metodus, už krypties paklaidą gali būti taikoma tokia pati bauda kaip už pasikartojimo klaidą, kai modelis kartoja tą patį žodį ar frazę. Tačiau krypties klaida gali būti labiau klaidinanti vartotoją nei pasikartojimo klaida. Kokybinė analizė padėjo jiems suprasti tokio tipo subtilybes, sako Boggust.
Tokios klaidos taip pat atskleidžia dabartinių modelių apribojimus ir iškelia etinius sumetimus, į kuriuos tyrėjai turi atsižvelgti kurdami autotitrų sistemas, priduria ji.
Įrodyta, kad generatyvieji mašininio mokymosi modeliai, tokie kaip ChatGPT, sukelia haliucinacijas arba pateikia neteisingą informaciją, kuri gali būti klaidinanti. Nors yra akivaizdu, kad naudojant šiuos modelius esamoms diagramoms automatiškai pridėti antraštes, bus naudinga, tačiau jei diagramos antraštės bus neteisingos, gali pasklisti dezinformacija.
„Gal tai reiškia, kad mes ne tik užrašome viską, ką matome, naudodami AI. Vietoj to, galbūt mes teikiame šias automatinių antraščių sistemas kaip autorystės įrankius, kad žmonės galėtų redaguoti. Svarbu galvoti apie šias etines pasekmes viso tyrimo proceso metu, o ne tik pabaigoje, kai turime pritaikyti modelį“, – sako ji.
Boggust, Tang ir jų kolegos nori toliau optimizuoti modelius, kad sumažintų kai kurias įprastas klaidas. Jie taip pat nori išplėsti „VisText“ duomenų rinkinį, kad būtų įtraukta daugiau diagramų ir sudėtingesnių diagramų, pavyzdžiui, su sukrautomis juostomis arba keliomis eilutėmis. Jie taip pat norėtų gauti įžvalgų apie tai, ką šie autotitrų modeliai iš tikrųjų sužino apie diagramos duomenis.
Šį tyrimą iš dalies parėmė „Google Research Scholar“ apdovanojimas, Nacionalinis mokslo fondas, MLA@CSAIL iniciatyva ir Jungtinių Valstijų oro pajėgų tyrimų laboratorija.