k 2023

Využití metod strojového učení a hmotnostní spektrometrie pro klinické aplikace v nádorové biologii

PEČINKA, Lukáš, Lukáš MORÁŇ, Monika VLACHOVÁ, Petra KOVAČOVICOVÁ, Aleš HAMPL et. al.

Basic information

Original name

Využití metod strojového učení a hmotnostní spektrometrie pro klinické aplikace v nádorové biologii

Name (in English)

Using machine learning and mass spectrometry for clinical applications in cancer biology

Authors

PEČINKA, Lukáš (203 Czech Republic, belonging to the institution), Lukáš MORÁŇ (203 Czech Republic, belonging to the institution), Monika VLACHOVÁ (203 Czech Republic, belonging to the institution), Petra KOVAČOVICOVÁ (703 Slovakia, belonging to the institution), Aleš HAMPL (203 Czech Republic, belonging to the institution), Josef HAVEL (203 Czech Republic, belonging to the institution), Sabina ŠEVČÍKOVÁ (203 Czech Republic, belonging to the institution) and Petr VAŇHARA (203 Czech Republic, guarantor, belonging to the institution)

Edition

XXVI. BIOLOGICKÉ DNY Podivuhodný svět informačních molekul: od bioinformatiky po biomedicínu, 2023

Other information

Language

Czech

Type of outcome

Prezentace na konferencích

Field of Study

30400 3.4 Medical biotechnology

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

RIV identification code

RIV/00216224:14110/23:00134280

Organization unit

Faculty of Medicine

Keywords in English

machine learning; cell quality control; lung progenitors; patient samples
Změněno: 24/11/2023 07:46, doc. RNDr. Petr Vaňhara, Ph.D.

Abstract

V originále

S rostoucími nároky na analýzy biologických vzorků ve složitých matricích roste i zájem o vývoj a optimalizaci hmotnostně spektrometrických (MS) metod. MS analýza intaktních buněk, vzorků plazmy, ale také i ostatních biologických materiálů má velký význam pro sledování a objasňování biologických procesů v organismu a poskytuje důležité informace o pheno/genotypu organismu. Ve dvou zde prezentovaných tématech jsou představeny různé techniky, které se zabývají studii těchto biologických vzorků. MALDI MS intaktních buněk se již používá v klinické mikrobiologii a diagnostice. V posledních letech byla zavedena také do buněčné biologie, imunologie a studie nádorů. První téma se zaměřuje na klasifikaci buněk rakoviny vaječníků s různým procentuálním podílem buněčných populací s potlačenou expresí genu (TUSC3). Metoda MS byla kombinována s vícerozměrnými statistickými algoritmy a metodami strojového učení (ML), např. PLS-DA, ANN a RF. Všechny výpočetní modely byly sestaveny s využitím programovacího jazyka R. Optimalizací byla MS intaktních buněk spojena s metodami ML pro sledování změn TUSC3 genu. Data získaná z hmotnostních spekter byla analyzována pomocí vyvinutého skriptu v jazyce R. Byla popsána metodika pro předzpracovaní dat, která vedla ke snížení technické variability datasetu. Metodika byla popsána s využitím souboru dat čítajícím 175 hmotnostních spekter. Celkem bylo vytvořeno a porovnáno 5 klasifikátorů založených na různých algoritmech, které byly dále optimalizovány. Jako model s nejlepší klasifikační schopností se 100% přesností (95% interval spolehlivosti, Cl = 94,7-100 %) pro validační data byla určena diskriminační analýza částečných nejmenších čtverců (PLS-DA). Výše popsaná metoda byla použita i pro další studie, například pro sledování diferenciace hESC do ELEP. Zde byla provedena vizualizace diferenciační trajektorie pouze na základě spektrálních dat a odhalili jsme také některé fenotypové abnormality související s počtem pasáží a zástupně s aneuploidním stavem hESC. Druhým tématem je vývoj metody pro analýzu vzorků lidské plazmy pomocí MALDI MS. Cílem je vyvinutí metody pro rozlišení pacientů s mnohočetným myelomem (MM) a pacienty s plazmocelulární leukémii (PCL) a extramedulárním onemocněním (EMD). Pro analýzu vzorků byl vyvinut dvoustupňový protokol extrakce proteinů. Intenzita v celém použitém rozsahu m/z se při použití extrakčního protokolu zvýšila přibližně 50× (v porovnání s neupravenými vzorky plazmy). Klasifikace pomocí ML algoritmů (RF, PLS-DA a ANN) dosáhla přesnosti 80-90 % pro trénovací soubor dat a 79-87 % pro testovací soubor dat. Tato zjištění mohou pomoci urychlit integraci MALDI MS do klinického použití a zpřesnit diagnózu těchto onemocnění. Podpořeno Masarykovou univerzitou projekt č.: MUNI/A/1298/2022, MUNI/A/1301/2022, MUNI/11/ACC/3/2022, ministerstvem zdravotnictví ČR projekt č.: NU21-03-00076 a grantovou agentura České republiky projekt č.: GA23-06675S.

In English

With increasing demands for analysis of biological samples in complex matrices, there is also a growing interest in the development and optimization of mass spectrometric (MS) methods. MS analysis of intact cells, plasma samples, and other biological materials is important for monitoring and elucidating biological processes in the organism and provides important information about the phenotype/genotype of the organism. Various techniques that deal with the study of these biological samples are presented in two topics. MALDI MS of intact cells is already used in clinical microbiology and diagnosis and has also been introduced into cell biology, immunology, and tumor studies in recent years. The first topic focuses on the classification of ovarian cancer cells with different percentages of cell populations with suppressed gene expression (TUSC3). The MS method was combined with multidimensional statistical algorithms and machine learning methods (ML), such as PLS-DA, ANN, and RF. All computational models were built using the R programming language. The optimization of MS of intact cells was combined with ML methods to monitor changes in the TUSC3 gene. Data obtained from mass spectra were analyzed using a developed script in the R language. A methodology for data preprocessing was described, which led to a reduction in the technical variability of the dataset. The methodology was described using a dataset of 175 mass spectra. A total of 5 classifiers based on different algorithms were created and compared, which were further optimized. Discriminant analysis of partial least squares (PLS-DA) was determined as the model with the best classification ability with 100% accuracy (95% confidence interval, Cl = 94.7-100%) for validation data. The above-described method was also used for other studies, such as monitoring the differentiation of hESC into ELEP. Here, the differentiation trajectory was visualized based solely on spectral data, and some phenotypic abnormalities related to the number of passages and aneuploid state of hESC were also revealed. The second topic is the development of a method for analyzing human plasma samples using MALDI MS. The aim is to develop a method for distinguishing patients with multiple myeloma (MM) and patients with plasma cell leukemia (PCL) and extramedullary disease (EMD). A two-step protocol for protein extraction was developed for sample analysis. The intensity in the entire used m/z range increased by approximately 50 times (compared to unmodified plasma samples) when using the extraction protocol. Classification using ML algorithms (RF, PLS-DA, and ANN) achieved an accuracy of 80-90% for the training dataset and 79-87% for the testing dataset. These findings can help accelerate the integration of MALDI MS into clinical use and improve the diagnosis of these diseases. Supported by Masaryk University project no.: MUNI/A/1298/2022, MUNI/A/1301/2022, MUNI/11/ACC/3/2022, the Ministry of Health of the Czech Republic project no.: NU21-03-00076, and the Grant Agency of the Czech Republic project no.: GA23-06675S.

Links

GA23-06675S, research and development project
Name: Plicní stres a regenerace
Investor: Czech Science Foundation, Pulmonary stress and regeneration
MUNI/A/1298/2022, interní kód MU
Name: Základní a aplikovaný výzkum a vývoj metod chemické a fyzikálně chemické analýzy pro studium přírody a pokročilé technologie
Investor: Masaryk University, Basic and applied research and development of chemical and physicochemical analytical methods for the study of nature and advanced technology
MUNI/A/1301/2022, interní kód MU
Name: Zdroje pro tkáňové inženýrství 13
Investor: Masaryk University
MUNI/11/ACC/3/2022, interní kód MU
Name: Bioanalytical quality control of cGMP/ATMP-grade stem cells and progenitors
Investor: Masaryk University, Accelerate
NU21-03-00076, research and development project
Name: Využití MALDI-TOF hmotnostní spektrometrie pro identifikaci molekulárních vzorců u relabovaných pacientů s mnohočetným myelomem
Investor: Ministry of Health of the CR, Subprogram 1 - standard