Data Mining from Free-Text Health Records : State of the Art,
New Polish Corpus

D 2020

Data Mining from Free-Text Health Records : State of the Art, New Polish Corpus

ANETTA, Krištof

Základní údaje

Originální název

Data Mining from Free-Text Health Records : State of the Art, New Polish Corpus

Autoři

ANETTA, Krištof

Vydání

Brno, Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020, od s. 13-22, 10 s. 2020

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Domovská stránka workshopu, PDF ve sborníku

Kód RIV

RIV/00216224:14330/20:00117842

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1600-8

ISSN

UT WoS

000655471300002

EID Scopus

2-s2.0-85103662062

Klíčová slova anglicky

EHR; electronic health records; named entity recognition; text data mining; NLP; natural language processing; Slavic languages; Polish

Štítky

named entity recognition, natural language processing, NLP, polish, Slavic languages, text data mining

Příznaky

Recenzováno

Změněno: 31. 1. 2025 17:46, Mgr. Krištof Anetta

Anotace

V originále

This paper deals with data mining from free-form text electronic health records both from global perspective and with specific application to Slavic languages. It introduces the reader to the promises and challenges of this enterprise and provides a short overview of the global state of the art and of the general absence of this kind of research in Central European Slavic languages. It describes pl_ehr_cardio, a new corpus of Polish health records with 18 years’ worth of medical text. This paper marks the beginning of a pioneering research project in medical text data mining in Central European Slavic languages.

Návaznosti

LM2018101, projekt VaV

Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy

MUNI/A/1411/2019, interní kód MU

Název: Aplikovaný výzkum: softwarové architektury kritických infrastruktur, bezpečnost počítačových systémů, zpracování přirozeného jazyka a jazykové inženýrství, vizualizaci velkých dat a rozšířená realita.

Investor: Masarykova univerzita, Aplikovaný výzkum: softwarové architektury kritických infrastruktur, bezpečnost počítačových systémů, zpracování přirozeného jazyka a jazykové inženýrství, vizualizaci velkých dat a rozšířená realita., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty

Přehled o publikaci