R 2020

Anonymizér osobních dat v online konverzacích

SOTOLÁŘ, Ondřej and Jaromír PLHÁK

Basic information

Original name

Anonymizér osobních dat v online konverzacích

Name (in English)

Personal Data Anonymization Software for Electronic Communication

Authors

SOTOLÁŘ, Ondřej (203 Czech Republic, belonging to the institution) and Jaromír PLHÁK (203 Czech Republic, guarantor, belonging to the institution)

Edition

2020

Other information

Language

Czech

Type of outcome

Software

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14330/20:00116046

Organization unit

Faculty of Informatics

Keywords (in Czech)

anonymizace;osobní dat;citlivá data;rozpoznání osobních dat

Keywords in English

anonymization;personal data;personal data recognition;GDPR;sensitive data

Technical parameters

Multiplatformní, open-source řešení. Zdrojové kódy jsou dostupné na https://gitlab.fi.muni.cz/irtis/irtis-anonymizer.
Změněno: 23/7/2020 10:27, RNDr. Jaromír Plhák, Ph.D.

Abstract

V originále

Softwarové řešení využívá existujícího nástroje pro rozpoznávání pojmenovaných entit (NameTag) společně s nově navrženými pravidly pro rozpoznávání a spojování pojmenovaných entit do větších celků, nazvaných entity osobních dat. SW umožňuje jejich anonymizaci pomocí nahrazení entit osobních údajů jinými údaji, které zachovají původní, přirozené vyznění textu.

In English

This software provides a novel rule-based approach to the anonymization of personal data in unstructured text written in Czech language. It uses available machine-learning methods, like named-entity recognition, and improve their performance by grouping multiple entities into larger units based on the theory of tabular data anonymization. This solution, personal data entities are detected, classified, and anonymized. Moreover, the resulting texts keep the original word forms after their replacement with gazetteer values.