Generovanie simulovaných testovacích dát pre genómové asociačné
štúdie

D 2013

Generovanie simulovaných testovacích dát pre genómové asociačné štúdie

ŠTEFANIČ, Stanislav a Matej LEXA

Základní údaje

Originální název

Generovanie simulovaných testovacích dát pre genómové asociačné štúdie

Název anglicky

Generating simulated testing data for genome-wide association studies

Autoři

ŠTEFANIČ, Stanislav a Matej LEXA

Vydání

Neuvedeno, ITAT 2013: Information Technologies - Applications and Theory (Workshops, Posters, and Tutorials), od s. 64-68, 5 s. 2013

Nakladatel

CreateSpace Independent Publishing Platform

Další údaje

Jazyk

slovenština

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Spojené státy

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

URL

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/13:00068955

Organizační jednotka

Fakulta informatiky

ISBN

1-4909-5208-X

Klíčová slova česky

GWAS

Klíčová slova anglicky

GWAS

Změněno: 3. 9. 2015 13:39, doc. Ing. Matej Lexa, Ph.D.

Anotace

ORIG EN

V originále

V posledných rokoch zaznamenávame vo výskumoch ľudských chorôb prudký nárast genomového sekvenovania vzoriek jedincov a následne hromadnej detekcie genetických asociácií medzi variáciami (prevažne SNP mutácie) a presnou diagnózou. Tieto techniky vyústili do rutinného používania techník zvaných genómové asociačné štúdia (GWAS). Detekovanie asociácie medzi jedným SNP a konkrétnou črtou jedinca sa dnes prevádza rutinne, no drvivá väčšina biologicky relevantných vzťahov c zahŕňa interakciu viacerých SNP, ktoré súčasne asociujú s danou fenotypovou crtou. Hľadanie takýchto interakcií je však kameňom úrazu v GWA štúdiach. V súčasnosnti sa snažíme tento problém vyriešiť a hľadáme možnosti ako tieto interakcie odhaľovať. Pri testovaní metód a postupov, ktoré majú tieto a podobné interakcie a asociácie odhaľovať je castým a jedným z najväčších problémov nedostatok reálnych dát, u ktorých máme informáciu o všetkých neznámych vzťahoch. Preto je namieste používanie umelých testovacích dát. Zaznamenávame niekoľko pokusov o riešenie tohoto problému práve cestou generovania umelých dát, ich problém však spočíva v nedostatočnej zložitosti a možnosti presného priblíženia simulovaných dát. Cieľom našej práce je tieto nedostatky odstrániť a poskytnúť možnosť generovať aj pomerne zložité simulované dáta s dostatočne presnou možnosťou priblíženia týchto dát reálnym dátam a vzťahom vyskytujúcim sa v prírode. Navrhnutá aplikácia poskytuje užívateľovi prehľadné grafické užívateľské rozhranie v ktorom nastavuje radu parametrov na základe ktorých sa budú dáta generovať. Presné nastavenia korelácií jednotlivých mutácií (SNP) a frekvencií jednotlivých alel je definované užívateľom zadanou funkciou, ktorá tieto parametre dostatočne dobre popisuje. Výstupy tejto aplikácie boli testované na metódach, ktoré odhaľujú skryté asociácie a interakcie medzi SNP navzájom a chorobou a ukryté vzťahy v týchto dátach boli správne detekované. Fungovanie aplikácie a výsledky práce ilustrujeme.

Anglicky

Recently human disease studies began to rely more and more on genotyping and genomic sequencing of individuals and a subsequent mass detection of genetic associations between variation (mostly SNPs) and diagnosis. These techniques are now called genome-wide association studies (GWAS). In GWAS we search for relationships between variations and the phenotype in the entire genomes. Detection of associations between single SNPs and a particular phenotype is now common. Unfortunately, the majority of biologicaly relevant relationships involve more than one SNP. These kinds of associations are still problematic to detect. We are looking for ways to solve this problem and efficiently detect compound associations with interacting SNPs. In testing methods applicable to interacting SNPs we often do not have appropriate data with information about all existing interactions and associations. However, the use of simulated data can help. Existing approaches to simulating genomic variation data often do not allow complicated relationships. Here we try to address this problem by designing a data simulator allowing for relatively complex and arbitrary interactions and associations to be embedded into simulated data. We designed a program with a graphical interface allowing the user to specify various parameters used to simulate artificial data. Users can freely specify functions for interactions and associations of several SNPs. Data simulated with our program was tested with GWAS association detection software. In this paper we present the program and its use.

Návaznosti

LG13010, projekt VaV

Název: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Akronym: ERCIM-CZ)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Zastoupení ČR v European Research Consortium for Informatics and Mathematics

7E13011, projekt VaV

Název: THALAssaemia MOdular Stratification System for personalized therapy of beta-thalassemia (Akronym: THALAMOSS)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, THALAssaemia MOdular Stratification System for personalized therapy of beta-thalassemia

Přehled o publikaci