SOTOLÁŘ, Ondřej, Jaromír PLHÁK a David ŠMAHEL. Towards Personal Data Anonymization for Social Messaging. In Kamil Ekštein, František Pártl, Miloslav Konopík. Text, Speech, and Dialogue. Cham: Springer, Cham, 2021, s. 281-292. ISBN 978-3-030-83526-2. Dostupné z: https://dx.doi.org/10.1007/978-3-030-83527-9_24.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Towards Personal Data Anonymization for Social Messaging
Autoři SOTOLÁŘ, Ondřej (203 Česká republika, garant, domácí), Jaromír PLHÁK (203 Česká republika, domácí) a David ŠMAHEL (203 Česká republika, domácí).
Vydání Cham, Text, Speech, and Dialogue, od s. 281-292, 12 s. 2021.
Nakladatel Springer, Cham
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Švýcarsko
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Impakt faktor Impact factor: 0.402 v roce 2005
Kód RIV RIV/00216224:14330/21:00119196
Organizační jednotka Fakulta informatiky
ISBN 978-3-030-83526-2
ISSN 0302-9743
Doi http://dx.doi.org/10.1007/978-3-030-83527-9_24
Klíčová slova anglicky Text anonymization; Personal data; Sanitization; De-identification; Privacy protection
Štítky firank_B
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 9. 9. 2021 13:23.
Anotace
We present a method for building text corpora for the supervised learning of text-to-text anonymization while maintaining a strict privacy policy. In our solution, personal data entities are detected, classified, and anonymized. We use available machine-learning methods, like named-entity recognition, and improve their performance by grouping multiple entities into larger units based on the theory of tabular data anonymization. Experimental results on annotated Czech Facebook Messenger conversations reveal that our solution has recall comparable to human annotators. On the other hand, precision is much lower because of the low efficiency of the named entity recognition in the domain of social messaging conversations. The resulting anonymized text is of high utility because of the replacement methods that produce natural text.
Návaznosti
GX19-27828X, projekt VaVNázev: Pohled do budoucnosti: Porozumění vlivu technologií na “well-being” adolescentů (Akronym: FUTURE)
Investor: Grantová agentura ČR, Modelling the future: Understanding the impact of technology on adolescent’s well-being
VytisknoutZobrazeno: 5. 7. 2024 05:01