2021
Towards Personal Data Anonymization for Social Messaging
SOTOLÁŘ, Ondřej, Jaromír PLHÁK a David ŠMAHELZákladní údaje
Originální název
Towards Personal Data Anonymization for Social Messaging
Autoři
SOTOLÁŘ, Ondřej (203 Česká republika, garant, domácí), Jaromír PLHÁK (203 Česká republika, domácí) a David ŠMAHEL (203 Česká republika, domácí)
Vydání
Cham, Text, Speech, and Dialogue, od s. 281-292, 12 s. 2021
Nakladatel
Springer, Cham
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Švýcarsko
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Impakt faktor
Impact factor: 0.402 v roce 2005
Kód RIV
RIV/00216224:14330/21:00119196
Organizační jednotka
Fakulta informatiky
ISBN
978-3-030-83526-2
ISSN
Klíčová slova anglicky
Text anonymization; Personal data; Sanitization; De-identification; Privacy protection
Štítky
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 9. 9. 2021 13:23, RNDr. Pavel Šmerk, Ph.D.
Anotace
V originále
We present a method for building text corpora for the supervised learning of text-to-text anonymization while maintaining a strict privacy policy. In our solution, personal data entities are detected, classified, and anonymized. We use available machine-learning methods, like named-entity recognition, and improve their performance by grouping multiple entities into larger units based on the theory of tabular data anonymization. Experimental results on annotated Czech Facebook Messenger conversations reveal that our solution has recall comparable to human annotators. On the other hand, precision is much lower because of the low efficiency of the named entity recognition in the domain of social messaging conversations. The resulting anonymized text is of high utility because of the replacement methods that produce natural text.
Návaznosti
GX19-27828X, projekt VaV |
|