Alt fra sociale medier til kryptovaluta er i fare for at blive manipuleret. Nu har forskere udviklet en fuldautomatiseret metode til at finde tegn på manipulation i store datasæt i realtid. Metoden kan også forklare beslutningerne for brugerne.
Verden bliver i stigende grad mere og mere digitaliseret og dermed også mere kompleks.
En af de store udfordringer er de enorme datasæt, som i dag er en helt integreret del af vores liv, for eksempel alt den data, som udgør sociale medier og alt andet, vi foretager os på internettet.
Problemet med data er, at de kan være svære at forstå, og at de kan manipuleres. Det gælder som eksempel manipulation af data fra netop sociale medier eller data involveret i transaktioner med kryptovaluta via blockchain-teknologi.
Kan man manipulere data på sociale medier, kan man skabe en falsk virkelighed, mens manipulation af data omkring kryptovaluta kan flytte penge fra din lomme til min lomme, uden at nogen nogensinde ville opdage det.
Risikoen for datamanipulation er stor, og mulighederne for at opdage det er små, men nu har forskere udviklet en metode til at identificere tegn på manipulation i store datasæt i takt med at det sker.
Metoden skal gerne gøre det muligt ikke bare opdage tegn på manipulation i store datasæt, men også finde kilden til manipulationerne.
”Udfordringen er, at mange datasæt er meget store, og det er umuligt at identificere anomalier manuelt, ligesom det for de fleste er meget svært at forstå datasættene i det hele taget. Vores metode kan identificere anomalierne og samtidig give de personer, der arbejder med data, en bedre forståelse af deres data, og hvad der er kilden til anomalierne,” forklarer en af forskerne bag udviklingen af metoden, lektor Arijit Khan fra Institut for Datalogi ved Aalborg Universitet.
Noder og kanter
Arijit Khan arbejder med sine kollegaer med at skabe bedre indsigt i grafdata, en metode til at visualisere interaktioner mellem data i store datasæt.
Som eksempel kan data i et socialt medie lagres som grafdata. Alle personer, billeder, kommentarer, videoer, links, grupper, sider og events er noder i data, og de noder er forbundet med kanter, hvilket vil sige interaktioner mellem noderne.
Når man for eksempel lægger et billede op på sin profil, skabes der en kant mellem de to noder, altså personen og billedet.
Hele Facebook er som eksempel en samling af noder og kanter, fordi Facebook lagrer data som grafdata.
Blockchain-teknologien fungerer på samme måde for fx transaktioner af kryptovaluta mellem mennesker. Her er brugerne noderne, mens transaktionerne er kanterne.
Det samme kan man sige om data over lægemiddeleffekter, hvor lægemidlerne og den molekylære struktur er noderne, mens effekterne er kanterne.
Metode kan opdage tegn på manipulation
Der er altid risiko for, at data bliver manipuleret.
Data på sociale medier kan manipuleres, eller kryptovaluta kan stjæles ved at fingere transaktioner mellem konti. Det er bare virkelig svært at opdage, at det er sket.
De metoder, som Arijit Khan og kollegaer har udviklet, er netop i stand til at identificere anomalier som tegn på for eksempel manipulation i store datasæt med grafdata.
Softwaren benytter skalérbare algoritmer og kunstig intelligens til ikke bare at identificere anomalier eller tegn på manipulation i store grafdatasæt, men også til at forklare de personer, der arbejder med data, hvad der viser tegn på manipulation.
”Problemet er ofte, at når man bruger kunstig intelligens til at finde mønstre i datasæt, kan softwaren finde frem til anomalier, men forklaringen mangler. Man kan altså få at vide, at noget ikke er, som det skal være, men man kan ikke få at vide, hvorfor det ser sådan ud. Vores metode identificerer ikke bare anomalierne, men forklarer også årsagen til, at noget bliver kaldt for en anomali,” forklarer Arijit Khan.
Kan identificere tegn på manipulation i realtid
Forskerne har udviklet deres metode, så den blandt andet kan identificere tegn på manipulation i forbindelse med blockchain.
I et studie, som for nylig blev publiceret i Frontiers in Blockchain, viste forskerne, at metoden var i stand til automatiseret at korrekt analysere tre verificerede manipulationer af blockchain-teknologi inden for valutahandel.
Her kunne metoden både identificere mistænkelige transaktioner og aktørerne bag dem.
”Man skal huske på, at ved blockchain-teknologi har man at gøre med en konstant strøm af data, som er umulig at overvåge manuelt. Der har man brug for automatiserede metoder til at kunne evaluere data i realtid og identificere anomalier. Når anomalierne er identificeret, er der også nødt til at følge en forklaring med, og det kommer vores metode med,” siger Arijit Khan.
I et andet studie i Proceedings of the ACM on Management of Data har forskerne vist, at de på samme måde kan identificere lægemiddelegenskaber, der er forbundet med en øget risiko for mutagenicitet.
”Her kan vi ikke kun vise, at dataene indikerer, at et eller andet lægemiddel er forbundet med en øget risiko for mutagenicitet, men vi kan også vise, hvad i den molekylære struktur, der giver anledning til denne egenskab,” forklarer Arijit Khan.
Han fortæller, at de metoder, som forskerne udvikler, kan tilpasses forskellige datasæt med forskellige egenskaber.
Derudover har forskerne lagt metoderne frit frem, så andre kan benytte dem og videreudvikle dem.