D 2021

Towards Personal Data Anonymization for Social Messaging

SOTOLÁŘ, Ondřej, Jaromír PLHÁK a David ŠMAHEL

Základní údaje

Originální název

Towards Personal Data Anonymization for Social Messaging

Autoři

SOTOLÁŘ, Ondřej (203 Česká republika, garant, domácí), Jaromír PLHÁK (203 Česká republika, domácí) a David ŠMAHEL (203 Česká republika, domácí)

Vydání

Cham, Text, Speech, and Dialogue, od s. 281-292, 12 s. 2021

Nakladatel

Springer, Cham

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Švýcarsko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14330/21:00119196

Organizační jednotka

Fakulta informatiky

ISBN

978-3-030-83526-2

ISSN

Klíčová slova anglicky

Text anonymization; Personal data; Sanitization; De-identification; Privacy protection

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 9. 9. 2021 13:23, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

We present a method for building text corpora for the supervised learning of text-to-text anonymization while maintaining a strict privacy policy. In our solution, personal data entities are detected, classified, and anonymized. We use available machine-learning methods, like named-entity recognition, and improve their performance by grouping multiple entities into larger units based on the theory of tabular data anonymization. Experimental results on annotated Czech Facebook Messenger conversations reveal that our solution has recall comparable to human annotators. On the other hand, precision is much lower because of the low efficiency of the named entity recognition in the domain of social messaging conversations. The resulting anonymized text is of high utility because of the replacement methods that produce natural text.

Návaznosti

GX19-27828X, projekt VaV
Název: Pohled do budoucnosti: Porozumění vlivu technologií na “well-being” adolescentů (Akronym: FUTURE)
Investor: Grantová agentura ČR, Modelling the future: Understanding the impact of technology on adolescent’s well-being