D 2025

Improving Machine Understanding of Czech Medical Text Using Self-Supervised and Rule-Based Data Augmentation

ANETTA, Krištof a Aleš HORÁK

Základní údaje

Originální název

Improving Machine Understanding of Czech Medical Text Using Self-Supervised and Rule-Based Data Augmentation

Autoři

ANETTA, Krištof (703 Slovensko, garant, domácí) a Aleš HORÁK (203 Česká republika, domácí)

Vydání

Cham, Modeling Decisions for Artificial Intelligence, 22nd International Conference, MDAI 2025, od s. 315-327, 386 s. 2025

Nakladatel

Springer

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Švýcarsko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Impakt faktor

Impact factor: 0.402 v roce 2005

Organizační jednotka

Fakulta informatiky

ISBN

978-3-032-00890-9

ISSN

Klíčová slova anglicky

EHR; health records; medical text; clinical text; data augmentation; annotation; self-supervised; bootstrapping; Czech

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 15. 8. 2025 13:37, Mgr. Krištof Anetta

Anotace

V originále

Medical doctor decision-making benefits from the development of effective support software. But for software to accurately interpret meaning and assist in clinical contexts, high-quality annotated health record data must be available for training and evaluation. This paper addresses this issue in the Czech language context, detailing a stage in a unique electronic health record (EHR) bootstrapping project. Using over 42 million words of Czech oncology records, we curated the creation of the CSEHR dataset: over 62,000 words of text with manually annotated medical concepts, out of which over 12,000 have been developed through multiple stages of review to serve as ground truth. We are leveraging this seed data to bootstrap larger annotated corpora, enabling scalable development of Czech healthcare NLP applications. This paper focuses on combining two data augmentation approaches. Approach 1, semi-supervised, consists in automated dataset augmentation using self-annotation to increase annotation density. Approach 2, based on distant supervision, consists in manual development of rules for improving annotations in training data. Results show that combining these two approaches on training data and fine-tuning an XLM-RoBERTa model for entity recognition increases the token classification F1 score by more than 5 points. This demonstrates the promise of this technique in further bootstrapping steps.

Návaznosti

LM2023062, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
90254, velká výzkumná infrastruktura
Název: e-INFRA CZ II