Sensitive Information Detection: Recursive Neural Networks for Encoding Context

Publikation: Bog/antologi/afhandling/rapportPh.d.-afhandling

532 Downloads (Pure)

Abstract

Mængden af information tilgængeligt som skal kunne automatisk håndteres
og bearbejdes vokser eksplosivt. Dette sker samtidigt med øget fokus på del-
ing af data og krav om transparens. Dette øger risikoen for deling af po-
tentielt følsomme oplysninger som ikke skulle have været delt. Sådanne fejl-
agtige delinger og afsløringer af følsomme oplysninger er forbundet med høje
omkostninger. I denne afhandling adresseres det voksende og komplekse prob-
lemområde omkring at finde følsomme informationer ved hjælp af datalogiske
algoritmer. Specifikt fokuseres på at finde følsomme oplysninger i ustruktur-
erede tekst dokumenter.
Vi påviser at simple regelsæt kun finder en relativ lille del af de faktiske føl-
somme oplysninger i tekst dokumenter. Vi påviser også at tidligere udgivende
algoritmer til at finde følsom information har båret en indbygget svaghed
således at disse algoritmer kun kan finde simpel følsom information.
Vi udvikler og beskriver en hel ny familie af algoritmer til at finde følsom
informationer. Vi antager adgang til eksempler af følsomme og ikke-følsomme
dokumenter. Dette er i kontrast til tidligere algoritmer med potentielt ureal-
istiske antagelser, så som at al følsom information kan indfanges af små sæt
af emneord. Vores nye algoritmer er inspireret af algoritmer indenfor “para-
phrase detection”. Vi tilpasser og forandre disse algoritmer baseret på dybe
rekursive kunstige neurale netværk. Vi efterviser eksperimentelt at vores al-
goritmer er signifikant bedre til at finde følsom information end de tidligere
udviklede og anvendte, såkaldte emneord-baserede algoritmer.
En stor udfordring for den forsatte forskning, udvikling og kvalitetssikring
indenfor det samfundsmæssige vigtige felt; at finde og beskytte følsomme in-
formationer, er manglen på adgang til relevant data. Da følsomme informa-
tioner, i sagens natur, er følsomme, er der en absolut mangel på datasæt som
kan bruges til at forske og udvikle nye tilgange og algoritmer. Dette funda-
mentale problem adresseres i denne afhandling. Vi frigiver 8 forskellige typer
af følsomme oplysninger over 2 meget forskellige datasæt af dokumenter. Vi
anvender angivelser af følsomhed foretaget af domæne eksperter. For hvert
datasæt frigiver vi 4 dokument-niveau angivelser af forskellige slags følsomme
informationer. Sammenlagt frigiver vi mere end 750.000 sætninger med an-
givelse af følsomhed og med semantiske træer over sætningerne som forskere
og udviklere kan gøre brug af.
OriginalsprogEngelsk
ForlagÅrhus Universitet
Antal sider156
StatusUdgivet - 2020

Fingeraftryk

Dyk ned i forskningsemnerne om 'Sensitive Information Detection: Recursive Neural Networks for Encoding Context'. Sammen danner de et unikt fingeraftryk.

Citationsformater