Diplomová práce

Využitie LLM na extrakciu formálnych vlastností biologických modelov z literatúry

Using LLMs to extract formal properties of biological models from literature

Bc. Richard Harman
Anotace

Systémová biológia sa spolieha na mechanistické modely (napr. booleovské regulačné siete) pri analýze zložitých biologických procesov. Ich manuálna konštrukcia z vedeckej literatúry je však neefektívna a náchylná na chyby. Táto diplomová práca navrhuje a implementuje automatizovaný analytický reťazec využívajúci veľké jazykové modely (LLM) na extrakciu formálnych biologických fenotypov (atraktorov …více

Abstract

Systems biology relies on mechanistic models (e.g., Boolean regulatory networks) to analyze complex biological processes. However, their manual construction from scientific literature is inefficient and error-prone. This master's thesis proposes and implements an automated analytical pipeline leveraging large language models (LLMs) to extract formal biological phenotypes (attractors) directly from …více

Zadání práce
Systémová biológia používa tzv. mechanistické modely (napr. Booleovské siete) na vysvetlenie správania komplexných biologických systémov. Výhoda takýchto modelov je, že formálne jednoznačným spôsobom popisujú správanie biologického sveta a dajú sa jednoducho skúmať pomocou simulácií a iných druhov výpočtovej analýzy (na rozdiel od "živého" systému ktorý vyžaduje laboratórium a komplikované experimenty).

Vedecká literatúra obsahuje množstvo článkov ktoré takéto modely popisujú a skúmajú. Aj keď pre samotné modely existujú dobre definované strojovo čitateľné formáty na ich zdieľanie, detailné správanie konkrétneho systému alebo význam jeho komponent je často popísaný len neformálne v texte článku. 

Cieľom tejto práce je pokúsiť sa využiť moderné jazykové modely (LLMs) na získanie formálneho popisu očakávaného správania modelu (napr. v podobe vhodne definovanej logickej formule) a dôležitých komponent modelu (napr. premenných ktoré určujú biologický fenotyp výsledného správania).

Zásadnou zložkou celej práce je aj to, že výstup LLM by mal byť čo najviac formálne a automatizovane overiteľný pomocou existujúcich nástrojov. Tým sa zaistí že nesprávne odvodené alebo halucinované výsledky budú automaticky zamietnuté alebo označené na manuálnu kontrolu.

Celkovo by mal v rámci práce študent navrhnút nástroj ktorý:
 - Dokáže ako vstup akceptovať vedecké publikácie vo vhodnom formáte (PDF, HTML, ...), vrátane obrázkov, tabuliek a iných multi-modálnych vstupov.
 - Predspracovať tieto údaje tak, aby boli vhodné ako vstup pre konkrétny jazykový model.
 - Pomocou jazykového modelu extrahovať v strojovo spracovateľnom formáte zoznam fenotypov (atraktorov) daného biologického systému.
 - Súčasťou výstupu by malo byť zdôvodnenie, resp. odkaz do zdrojových dokumentov ktoré dokladujú/diskutujú existenciu daného fenotypu.
 - Nástroj by mal obsahovať predpripravené inštrukcie pre jazykový model ktoré je ale zároveň možné konfigurovať užívateľom.
 - Taktiež musí byť možné konfigurovať použitý model a prípadne vyberať medzi viacerými poskytovateľmi modelov.
 - V prípade že užívateľ poskytne "logický model" (Booleovskú sieť) daného biologického systému, musí byť nástroj schopný validovať že takýto model spĺňa špecifikáciu extrahovanú pomocou jazykového modelu. 
 - Nástroj bude otestovaný na vhodne zvolenej vzorke logických modelov z Biodivine Boolean Models databáze, pričom hlavné testovacie kritériá sú (a) správnosť nájdených fenotypov a (b) pokrytie, teda akú časť fenotypov modelu nástroj skutočne extrahoval z literatúry.
Práce zkontrolována:
20. 5. 2026 19:02, RNDr. Samuel Pastva, Ph.D., učo 410286
Jazyk práce
slovenština slovenština
Termín obhajoby
18. 6. 2026
Práce byla úspěšně obhájena

Vedoucí

RNDr. Samuel Pastva, Ph.D., učo 410286
KPSK FI MU

Oponent

Mgr. Ondřej Huvar, učo 492849
KSUZD FI MU

  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.