Bakalářská práce
Získaná ocenění: Cena děkana FI za vynikající závěrečnou práci

Prediction of missing peaks in mass spectra

Michal Starý
Anotace

Identifikace sloučenin je zásadní pro monitorování životního prostředí. Plynová chromatografie s hmotnostní spektrometrií (GC-MS) je široce používanou metodou pro tuto identifikaci. Klíčovým krokem ve zpracování komplexních dat pocházejících z GC-MS přístroje je detekce vrcholů. Chyby algoritmů detekce vrcholů, jako jsou například nezachycené vrcholy, značně omezují schopnost výzkumníků monitorovat …více

Abstract

Compound identification is essential for monitoring the environment. Gas Chromatography-Mass Spectrometry (GC-MS) is a widely used method for such identification. A crucial step in the processing of complex data coming from the physical GC-MS instrument is peak detection. The errors of peak detection algorithms, such as missed peaks, severely limit the researchers' ability to monitor low-concentration …více

Zadání práce
Mass spectrometry is an important analytical technique used in laboratories to elucidate composition of unknown samples. Data analysis of the signal coming from a mass spectrometer is a complicated multi-step process. In the ultimate phase of this process, the mass spectra of individual compounds are recovered and compared to a spectral database of known compounds.

Formally, the mass spectrum of a single compound can be represented as a smaller (cardinality ranging from tens to low hundreds) set of pairs (mass, intensity). Due to various factors (such as imperfect deconvolution, noise, etc.), it may happen that some of those pairs are missing. As a result, the precision of database retrieval declines.

The goal of this work is to apply machine learning methods (with a particular focus on deep learning methods coming from the natural language processing area) in such a way that they can suggest what are the missing parts. With this kind of advice, it will be possible to confirm or disprove the presence of the signal in original data and to improve the precision of database retrieval significantly.

Twofold focus of the work is expected. Firstly, the prediction of peaks with a lower intensity (that are often obscured by noise in measured data) will be addressed. Secondly, the correction of (deconvolution, ...) errors caused by an overlap of different compounds and expressed as randomly missing peaks even in higher intensity sections in measured data should be targeted.

The output of the work should be methods implemented in a suitable form (e.g Jupyter notebooks, R-Studio), evaluation of those on the dataset available and discussion of the results achieved.

Práce zkontrolována:
17. 12. 2021 16:25, Mgr. Aleš Křenek, Ph.D., učo 3086
Jazyk práce
angličtina angličtina
Termín obhajoby
10. 2. 2022
Práce byla úspěšně obhájena

Vedoucí

Mgr. Aleš Křenek, Ph.D., učo 3086
ANKO DITI ÚVT MU

Oponent

doc. Mgr. Bc. Vít Nováček, PhD, učo 4049
KSUZD FI MU

Masarykova univerzita Fakulta informatiky
Studijní program
Informatika
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.