Bakalářská práce

The quality assessment of high-quality near-complete genome assemblies

Samuel Kuziel
Anotace

Genómové zostavy dosiahli úroveň kvality, pri ktorej tradičné metódy hodnotenia založené na k-meroch strácajú citlivosť a nedokážu spoľahlivo rozlíšiť medzi najkvalitnejšími zostavami. Táto práca predstavuje RAAQA, command-line nástroj na kvantitatívne hodnotenie kvality genómových zostáv s využitím metrík založených na zarovnaní a fázovaní. Nástroj poskytuje dva analytické moduly. Modul kvality zarovnania …více

Abstract

Genome assemblies have reached a level of quality where traditional k-mer-based evaluation methods lose sensitivity and can no longer reliably differentiate between the highest-quality assemblies. This thesis presents RAAQA, a command-line tool for quantitative genome assembly quality assessment using alignment-based and phasing-based metrics. The tool provides two analytical modules. The alignment …více

Zadání práce

The recent technological and algorithmical advancement allowed us to generate high-quality genome assemblies, with the estimated error rates of only 1 in 1 million basepairs, or lower. As a consequence, many traditional methods for the quality control of newly generated assemblies are no longer useful. For example, k-mer based quality estimates cannot differentiate well between high-quality and ultra high-quality genome assemblies. Therefore, new computational pipelines or tools that utilize different quality metrics are needed. The objective of this thesis is to implement a computational tool for the quantitative assessment of genome assembly quality using novel evaluation metrics. The proposed solution will address some of the limitations of traditional quality control approaches. The developed tool will support multiple complementary metrics for assessing assembly completeness and accuracy, including: 1) soft-clipped basepairs - indicating potential misassemblies or alignment inconsistencies, 2) mapping quality (MAPQ) - reflecting the overall confidence of read alignments across the genome, and an experimental module for calculating the 3) Hamming errors and switch errors - providing measures of haplotype phasing correctness. This module will be applicable only to Hifiasm assemblies with available .paf alignment files and parental data, and will serve to help scientists benchmark various assembly recipes. Finally, the tool will be implemented as a command-line application and the emphasis will be placed on usability and reproducibility, ensuring accessibility for biologists and genomic researchers.

Práce zkontrolována:
25. 5. 2026 08:00, Mgr. Monika Čechová, Ph.D., učo 256590
Jazyk práce
angličtina angličtina
Termín obhajoby
23. 6. 2026
Práce byla úspěšně obhájena

Vedoucí

Mgr. Monika Čechová, Ph.D., učo 256590
KSUZD FI MU

Oponent

doc. Ing. Matej Lexa, Ph.D., učo 31298
KSUZD FI MU

 
Název
Vložil
Vloženo
Práva
Archiv závěrečné práce Samuel Kuziel FI B-INF IN mtomd/20
24. 11. 2025
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.