Diplomová práce
Získaná ocenění: Cena děkana FI za vynikající závěrečnou práci

Deep Learning for small RNA mediated targeting

Bc. Ján Krčmář
Anotace

Micro RNA (miRNA) zohrávajú významnú úlohu regulátorov v kľúčových biologických procesoch a chorobách, tlmením post-transkripčnej expresie génov, ktorú dosahujú väzbou na cieľové úseky na mediátorových RNA. Algoritmickú predikciu napojenia molekúl miRNA na cieľové úseky, výrazne sťažuje zatiaľ nedostatočne riešený problém nevyváženého zastúpenia tried. Táto nerovnováha vzniká medzi menším počtom experimentálne …více

Abstract

Micro RNAs (miRNAs) have a significant, regulatory role in key biological processes and diseases, by post-transcriptional gene expression modulation achieved by binding to target sites on messenger RNAs. Algorithmic prediction of the potential of a miRNA-target binding is hindered by the yet not properly addressed problem of class imbalance between the “few” actual binding sites (the positive class …více

Zadání práce
Small RNA mediated targeting, primarily miRNA targeting, is a process by which RNA translation and stability are regulated. Recent developments in Next Generation Sequencing techniques, specifically the isolation of chimeric reads, has allowed us the identification of unambiguous miRNA:target duplexes from sequencing data. Deep Learning is a family of cutting edge machine learning techniques that have been applied to pattern recognition problems with great success. This project involves the development of a Deep Learning system for the identification of miRNA (or other small RNA) driver sequences, trained on chimeric read data. The student will work with experimental data from CLASH experiments, both previously published (Ago1-CLASH, Helwak et al) and currently under publication from our research group (Ago2-CLASH).
A central aspect of the project is the concept of highly imbalanced datasets. Briefly, in the context of small RNA binding, there are hundreds of negative putative binding sites for each positive binding site in natural contexts. This imbalance leads to low precision of prediction when models are trained on balanced datasets. However, training on realistic imbalanced datasets is computationally expensive. Previously, we developed a method termed Iterative Background Selection (Georgakilas et al) that aimed to solve this problem for Convolutional Neural Networks used in genomic annotation. The student will re-implement this method, and others proposed in bibliography, and perform a thorough comparison using the experimental CLASH datasets.
Particular goals of the work are:
  • Develop Deep Learning system for small RNA identification based on chimeric reads, based on Convolutional Neural Network architecture
  • Identify and evaluate training methods dealing with *highly imbalanced datasets*.
  • Evaluate precision/sensitivity of prediction.
  • Dissemination of method (publication)

Helwak A, Kudla G, Dudnakova T, Tollervey D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 2013;153(3):654-665. doi:10.1016/j.cell.2013.03.043
Georgakilas, G.K., Grioni, A., Liakos, K.G. et al. Multi-branch Convolutional Neural Network for Identification of Small Non-coding RNA genomic loci. Sci Rep 10, 9486 (2020). https://doi.org/10.1038/s41598-020-66454-3
Práce zkontrolována:
19. 5. 2022 11:48, Panagiotis Alexiou, PhD, učo 241340
Jazyk práce
angličtina angličtina
Termín obhajoby
24. 6. 2022
Práce byla úspěšně obhájena

Vedoucí

Panagiotis Alexiou, PhD, učo 241340
PanAl CMM CEITEC MU

Oponent

Mgr. Petr Šimeček, MSc., Ph.D., učo 244334
PanAl CMM CEITEC MU

Masarykova univerzita Fakulta informatiky
Plán
Strojové učení a umělá inteligence
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.