k 2023

Využití metod strojového učení a hmotnostní spektrometrie pro klinické aplikace v nádorové biologii

PEČINKA, Lukáš, Lukáš MORÁŇ, Monika VLACHOVÁ, Petra KOVAČOVICOVÁ, Aleš HAMPL et. al.

Základní údaje

Originální název

Využití metod strojového učení a hmotnostní spektrometrie pro klinické aplikace v nádorové biologii

Název anglicky

Using machine learning and mass spectrometry for clinical applications in cancer biology

Autoři

PEČINKA, Lukáš (203 Česká republika, domácí), Lukáš MORÁŇ (203 Česká republika, domácí), Monika VLACHOVÁ (203 Česká republika, domácí), Petra KOVAČOVICOVÁ (703 Slovensko, domácí), Aleš HAMPL (203 Česká republika, domácí), Josef HAVEL (203 Česká republika, domácí), Sabina ŠEVČÍKOVÁ (203 Česká republika, domácí) a Petr VAŇHARA (203 Česká republika, garant, domácí)

Vydání

XXVI. BIOLOGICKÉ DNY Podivuhodný svět informačních molekul: od bioinformatiky po biomedicínu, 2023

Další údaje

Jazyk

čeština

Typ výsledku

Prezentace na konferencích

Obor

30400 3.4 Medical biotechnology

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14110/23:00134280

Organizační jednotka

Lékařská fakulta

Klíčová slova anglicky

machine learning; cell quality control; lung progenitors; patient samples
Změněno: 24. 11. 2023 07:46, doc. RNDr. Petr Vaňhara, Ph.D.

Anotace

V originále

S rostoucími nároky na analýzy biologických vzorků ve složitých matricích roste i zájem o vývoj a optimalizaci hmotnostně spektrometrických (MS) metod. MS analýza intaktních buněk, vzorků plazmy, ale také i ostatních biologických materiálů má velký význam pro sledování a objasňování biologických procesů v organismu a poskytuje důležité informace o pheno/genotypu organismu. Ve dvou zde prezentovaných tématech jsou představeny různé techniky, které se zabývají studii těchto biologických vzorků. MALDI MS intaktních buněk se již používá v klinické mikrobiologii a diagnostice. V posledních letech byla zavedena také do buněčné biologie, imunologie a studie nádorů. První téma se zaměřuje na klasifikaci buněk rakoviny vaječníků s různým procentuálním podílem buněčných populací s potlačenou expresí genu (TUSC3). Metoda MS byla kombinována s vícerozměrnými statistickými algoritmy a metodami strojového učení (ML), např. PLS-DA, ANN a RF. Všechny výpočetní modely byly sestaveny s využitím programovacího jazyka R. Optimalizací byla MS intaktních buněk spojena s metodami ML pro sledování změn TUSC3 genu. Data získaná z hmotnostních spekter byla analyzována pomocí vyvinutého skriptu v jazyce R. Byla popsána metodika pro předzpracovaní dat, která vedla ke snížení technické variability datasetu. Metodika byla popsána s využitím souboru dat čítajícím 175 hmotnostních spekter. Celkem bylo vytvořeno a porovnáno 5 klasifikátorů založených na různých algoritmech, které byly dále optimalizovány. Jako model s nejlepší klasifikační schopností se 100% přesností (95% interval spolehlivosti, Cl = 94,7-100 %) pro validační data byla určena diskriminační analýza částečných nejmenších čtverců (PLS-DA). Výše popsaná metoda byla použita i pro další studie, například pro sledování diferenciace hESC do ELEP. Zde byla provedena vizualizace diferenciační trajektorie pouze na základě spektrálních dat a odhalili jsme také některé fenotypové abnormality související s počtem pasáží a zástupně s aneuploidním stavem hESC. Druhým tématem je vývoj metody pro analýzu vzorků lidské plazmy pomocí MALDI MS. Cílem je vyvinutí metody pro rozlišení pacientů s mnohočetným myelomem (MM) a pacienty s plazmocelulární leukémii (PCL) a extramedulárním onemocněním (EMD). Pro analýzu vzorků byl vyvinut dvoustupňový protokol extrakce proteinů. Intenzita v celém použitém rozsahu m/z se při použití extrakčního protokolu zvýšila přibližně 50× (v porovnání s neupravenými vzorky plazmy). Klasifikace pomocí ML algoritmů (RF, PLS-DA a ANN) dosáhla přesnosti 80-90 % pro trénovací soubor dat a 79-87 % pro testovací soubor dat. Tato zjištění mohou pomoci urychlit integraci MALDI MS do klinického použití a zpřesnit diagnózu těchto onemocnění. Podpořeno Masarykovou univerzitou projekt č.: MUNI/A/1298/2022, MUNI/A/1301/2022, MUNI/11/ACC/3/2022, ministerstvem zdravotnictví ČR projekt č.: NU21-03-00076 a grantovou agentura České republiky projekt č.: GA23-06675S.

Anglicky

With increasing demands for analysis of biological samples in complex matrices, there is also a growing interest in the development and optimization of mass spectrometric (MS) methods. MS analysis of intact cells, plasma samples, and other biological materials is important for monitoring and elucidating biological processes in the organism and provides important information about the phenotype/genotype of the organism. Various techniques that deal with the study of these biological samples are presented in two topics. MALDI MS of intact cells is already used in clinical microbiology and diagnosis and has also been introduced into cell biology, immunology, and tumor studies in recent years. The first topic focuses on the classification of ovarian cancer cells with different percentages of cell populations with suppressed gene expression (TUSC3). The MS method was combined with multidimensional statistical algorithms and machine learning methods (ML), such as PLS-DA, ANN, and RF. All computational models were built using the R programming language. The optimization of MS of intact cells was combined with ML methods to monitor changes in the TUSC3 gene. Data obtained from mass spectra were analyzed using a developed script in the R language. A methodology for data preprocessing was described, which led to a reduction in the technical variability of the dataset. The methodology was described using a dataset of 175 mass spectra. A total of 5 classifiers based on different algorithms were created and compared, which were further optimized. Discriminant analysis of partial least squares (PLS-DA) was determined as the model with the best classification ability with 100% accuracy (95% confidence interval, Cl = 94.7-100%) for validation data. The above-described method was also used for other studies, such as monitoring the differentiation of hESC into ELEP. Here, the differentiation trajectory was visualized based solely on spectral data, and some phenotypic abnormalities related to the number of passages and aneuploid state of hESC were also revealed. The second topic is the development of a method for analyzing human plasma samples using MALDI MS. The aim is to develop a method for distinguishing patients with multiple myeloma (MM) and patients with plasma cell leukemia (PCL) and extramedullary disease (EMD). A two-step protocol for protein extraction was developed for sample analysis. The intensity in the entire used m/z range increased by approximately 50 times (compared to unmodified plasma samples) when using the extraction protocol. Classification using ML algorithms (RF, PLS-DA, and ANN) achieved an accuracy of 80-90% for the training dataset and 79-87% for the testing dataset. These findings can help accelerate the integration of MALDI MS into clinical use and improve the diagnosis of these diseases. Supported by Masaryk University project no.: MUNI/A/1298/2022, MUNI/A/1301/2022, MUNI/11/ACC/3/2022, the Ministry of Health of the Czech Republic project no.: NU21-03-00076, and the Grant Agency of the Czech Republic project no.: GA23-06675S.

Návaznosti

GA23-06675S, projekt VaV
Název: Plicní stres a regenerace
Investor: Grantová agentura ČR, Plicní stres a regenerace
MUNI/A/1298/2022, interní kód MU
Název: Základní a aplikovaný výzkum a vývoj metod chemické a fyzikálně chemické analýzy pro studium přírody a pokročilé technologie
Investor: Masarykova univerzita, Základní a aplikovaný výzkum a vývoj metod chemické a fyzikálně chemické analýzy pro studium přírody a pokročilé technologie
MUNI/A/1301/2022, interní kód MU
Název: Zdroje pro tkáňové inženýrství 13
Investor: Masarykova univerzita, Zdroje pro tkáňové inženýrství 13
MUNI/11/ACC/3/2022, interní kód MU
Název: Bioanalytical quality control of cGMP/ATMP-grade stem cells and progenitors
Investor: Masarykova univerzita, Bioanalytical quality control of cGMP/ATMP-grade stem cells and progenitors, Accelerate
NU21-03-00076, projekt VaV
Název: Využití MALDI-TOF hmotnostní spektrometrie pro identifikaci molekulárních vzorců u relabovaných pacientů s mnohočetným myelomem
Investor: Ministerstvo zdravotnictví ČR, Využití MALDI-TOF hmotnostní spektrometrie pro identifikaci molekulárních vzorců u relabovaných pacientů s mnohočetným myelomem, Podprogram 1 - standardní