Mining Czech Clinical Notes Using the Language Modelling Technology

Houfek, Tomáš

Diplomová práce

Mining Czech Clinical Notes Using the Language Modelling Technology

Bc. Tomáš Houfek

Anotace

V této práci pracuji s několika velkýmu jazykovými modely. Tyto modely předtrénuji na velké datové sadě lékařských zpráv a následně je dotrénuji na skecifické úkoly v lékařské doméně. První je rozpoznávání lékařskýhc jmených entit a druhý klasifikace lékařských zpráv. Na těchto dvou úkolech předvedu, že předtrénování na velkých lékařských datech vylepší výsledky těchto dvou úkolů a to netriviálně oproti …víceméně

Abstract

In this thesis I work with various Large Language models, pre-train these models on a large Czech medical dataset and then fine-tune these models on a pair of natural language processing tasks in the medical domain. The first is Medical Named Entity Recognition (Medical Named Entity Recognition (NER)) and the second is Medical records classification. I show that further pre-training on the large medical …víceméně

Klíčová slova

LLM HealthAI machine learning NLP medical informatics Explain- able AI Information Extraction EHR oncology Transformers deep learning

Zadání práce

Context:
Patient records are a goldmine for various data analytics and machine learning applications aiming at gaining insights that could lead to more efficient treatments, inform innovative clinical decision support systems and enable patient empowerment. However, a lot of information in patient records is "locked" in the form of unstructured text that is not readily amenable to machine processing. The latest advances in the language models technology can be used for tackling this challenge. However, few such models exist for relatively under-resourced languages like Czech, and there are no such models at all trained specifically for the medical domain in the Czech context, which is a gap this work will address.

Goals:
- Study the state of the art in general-purpose language models trained on English texts.
- Review language models specifically trained on biomedical text. Focus on both self-supervised learning stage and consequent fine-tuning techniques.
- Implement a bespoke language model trained on Czech (bio)medical content (e.g. patient records) in a self-supervised manner.
- Work with clinical expert(s) on defining a specific unmet clinical need that could be used for task-specific fine-tuning of the self-supervised model (e.g. extraction of named entities such as symptoms, procedures or medications from unstructured health records).
- Explore approaches that could support the results of the developed model with explanations (getting inspired for instance by LIME or gradient-based attribution methods).
- Validate the result with the assistance of the clinical expert.
- Write up the results in a thesis form.

Requirements:
- Keen interest in the topic.
- Knowledge of and previous hands-on experience with natural language processing.
- While the thesis can be written and defended in Czech, its elaboration and presentation in English will be supported enthusiastically (the results may be disseminated to and used by partners in ongoing or future EU projects).
- Monthly (or more frequent, if needed) progress review meetings with the supervisor will be expected.
- The student(s) will also be expected to develop and document any related code using the FI MU Gitlab and ICS SensitiveCloud platforms, and (if applicable) re-use and interact with other related projects there.

Administrativní informace

Práce zkontrolována:
25. 5. 2024 08:33, doc. Mgr. Bc. Vít Nováček, PhD, učo 4049

Zadáno/změněno 20. 6. 2024 08:20, Miroslava Tomíčková, učo 114718
Záznam založen 25. 4. 2024 09:55, Mgr. Lenka Kubová, učo 247849
Zveřejnit od 21. 5. 2024 10:15, Miroslava Tomíčková, učo 114718
Práce převzata 21. 5. 2024 10:15, Miroslava Tomíčková, učo 114718

Plný text práce

1,5 MB / soubor PDF

Přílohy (1)

Přílohy

attachments.zip

Příloha

Jazyk práce

angličtina

Termín obhajoby

19. 6. 2024

Práce byla úspěšně obhájena

Vedoucí

doc. Mgr. Bc. Vít Nováček, PhD, učo 4049
KSUZD FI MU

Posudek vedoucího

Oponent

doc. Pavel Pecina, PhD
Institute of Formal and Applied Linguistics, Charles University, Czech Republic, Faculty of Mathematics and Physics

Posudek oponenta

Citovat tuto práci

Citace dle normy ČSN ISO 690

HOUFEK, Tomáš. Mining Czech Clinical Notes Using the Language Modelling Technology. Online. Diplomová práce. Brno: Masarykova univerzita, Fakulta informatiky. 2024. Dostupné z: https://is.muni.cz/th/c3fi1/.

@MastersThesis{Houfek2024thesis, AUTHOR = {Houfek, Tomáš}, TITLE = {Mining Czech Clinical Notes Using the Language Modelling Technology}, YEAR = {2024}, TYPE = {Diplomová práce}, INSTITUTION = {Masarykova univerzita, Fakulta informatiky}, LOCATION = {Brno}, SUPERVISOR = {Vít Nováček}, URL = {https://is.muni.cz/th/c3fi1/}, URL_DATE = {2026-06-23}, }

{{Citace kvalifikační práce | příjmení = Houfek | jméno = Tomáš | instituce = Masarykova univerzita, Fakulta informatiky | odkaz na instituci = Fakulta informatiky Masarykovy univerzity | titul = Mining Czech Clinical Notes Using the Language Modelling Technology | url = https://is.muni.cz/th/c3fi1/ | typ práce = Diplomová práce | vedoucí = Vít Nováček | odkaz na vedoucího = {{UČO na článek|4049}} | místo = Brno | rok = 2024 | počet stran = | strany = | citace = 2026-06-23 | poznámka = | jazyk = en }}

Masarykova univerzita Fakulta informatiky

Studijní program

Umělá inteligence a zpracování dat

Plán

Zpracování přirozeného jazyka

Práce na příbuzné téma

Seznam prací, které mají shodná klíčová slova.

Data extraction from medical records

Mgr. Tomáš Houfek
Anonymisation of Clinical Notes

Bc. Karolína Rusnačková
Patient similarity based on unstructured clinical notes

RNDr. Petr Zelina, učo 469366
Czech Question Answer Selection using Recurrent Neural Networks

RNDr. Radoslav Sabol, učo 469331
Large Language Models for Social Robot Communication

Bc. Filip Brzý
Domain-specific English-Czech Neural Machine Translation

Mgr. Martin Wörgötter
Analysis of use of AI systems in writing final theses at FI MU

Ing. David Černý
Propaganda Detection using Stylometric Text Analysis

RNDr. Radoslav Sabol, učo 469331

Podobné práce

Název

Vložil

Vloženo

Práva

Archiv závěrečné práce Tomáš Houfek FI N-UIZD ZPJ c3fi1/8

Kubová, L.

25. 4. 2024

Složky

Soubory

Anotace anglicky annotation_english.txt

Houfek, T.

20. 5. 2024

Anotace česky annotation.txt

Houfek, T.

20. 5. 2024

Klíčová slova keywords.txt

Houfek, T.

20. 5. 2024

Plný text práce Diploma_thesis.pdf

Houfek, T.

20. 5. 2024

Posudek oponenta posudek_oponenta_Pecina.pdf

Kubová, L.

7. 6. 2024

Posudek vedoucího posudek_vedouciho_Novacek.pdf

Nováček, V.

11. 6. 2024

Příloha attachments.zip

Houfek, T.

20. 5. 2024

Přidání souboru

Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
Další operace se soubory

Podrobnosti lze zjistit označením příslušného řádku.
Pohled pro experty

Pro častou práci je možné zvolit režim Více možností.
Vyhledávání souborů

Vyhledávaný výraz můžete zadat přímo do adresního řádku.
Rychlý přístup k souborům

Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.

Závěrečná práce: Bc. Tomáš Houfek: Mining Czech Clinical Notes Using the Language Modelling Technology

Diplomová práce

Mining Czech Clinical Notes Using the Language Modelling Technology

Anotace

Abstract

Klíčová slova

Zadání práce

Přílohy

attachments.zip

Vedoucí

Oponent

Citace dle normy ČSN ISO 690

Práce na příbuzné téma

Složky

Soubory

Přidání souboru

Další operace se soubory

Pohled pro experty

Vyhledávání souborů

Rychlý přístup k souborům