ŠTEFANIČ, Stanislav and Matej LEXA. Generovanie simulovaných testovacích dát pre genómové asociačné štúdie (Generating simulated testing data for genome-wide association studies). In Tomáš Vinař, Martin Holeňa, Matej Lexa, Ladislav Peška, Peter Vojtáš. ITAT 2013: Information Technologies - Applications and Theory (Workshops, Posters, and Tutorials). Neuvedeno: CreateSpace Independent Publishing Platform, 2013, p. 64-68. ISBN 1-4909-5208-X.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Generovanie simulovaných testovacích dát pre genómové asociačné štúdie
Name (in English) Generating simulated testing data for genome-wide association studies
Authors ŠTEFANIČ, Stanislav (703 Slovakia, belonging to the institution) and Matej LEXA (703 Slovakia, guarantor, belonging to the institution).
Edition Neuvedeno, ITAT 2013: Information Technologies - Applications and Theory (Workshops, Posters, and Tutorials), p. 64-68, 5 pp. 2013.
Publisher CreateSpace Independent Publishing Platform
Other information
Original language Slovak
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher United States of America
Confidentiality degree is not subject to a state or trade secret
Publication form printed version "print"
WWW URL
RIV identification code RIV/00216224:14330/13:00068955
Organization unit Faculty of Informatics
ISBN 1-4909-5208-X
Keywords (in Czech) GWAS
Keywords in English GWAS
Changed by Changed by: doc. Ing. Matej Lexa, Ph.D., učo 31298. Changed: 3/9/2015 13:39.
Abstract
V posledných rokoch zaznamenávame vo výskumoch ľudských chorôb prudký nárast genomového sekvenovania vzoriek jedincov a následne hromadnej detekcie genetických asociácií medzi variáciami (prevažne SNP mutácie) a presnou diagnózou. Tieto techniky vyústili do rutinného používania techník zvaných genómové asociačné štúdia (GWAS). Detekovanie asociácie medzi jedným SNP a konkrétnou črtou jedinca sa dnes prevádza rutinne, no drvivá väčšina biologicky relevantných vzťahov c zahŕňa interakciu viacerých SNP, ktoré súčasne asociujú s danou fenotypovou crtou. Hľadanie takýchto interakcií je však kameňom úrazu v GWA štúdiach. V súčasnosnti sa snažíme tento problém vyriešiť a hľadáme možnosti ako tieto interakcie odhaľovať. Pri testovaní metód a postupov, ktoré majú tieto a podobné interakcie a asociácie odhaľovať je castým a jedným z najväčších problémov nedostatok reálnych dát, u ktorých máme informáciu o všetkých neznámych vzťahoch. Preto je namieste používanie umelých testovacích dát. Zaznamenávame niekoľko pokusov o riešenie tohoto problému práve cestou generovania umelých dát, ich problém však spočíva v nedostatočnej zložitosti a možnosti presného priblíženia simulovaných dát. Cieľom našej práce je tieto nedostatky odstrániť a poskytnúť možnosť generovať aj pomerne zložité simulované dáta s dostatočne presnou možnosťou priblíženia týchto dát reálnym dátam a vzťahom vyskytujúcim sa v prírode. Navrhnutá aplikácia poskytuje užívateľovi prehľadné grafické užívateľské rozhranie v ktorom nastavuje radu parametrov na základe ktorých sa budú dáta generovať. Presné nastavenia korelácií jednotlivých mutácií (SNP) a frekvencií jednotlivých alel je definované užívateľom zadanou funkciou, ktorá tieto parametre dostatočne dobre popisuje. Výstupy tejto aplikácie boli testované na metódach, ktoré odhaľujú skryté asociácie a interakcie medzi SNP navzájom a chorobou a ukryté vzťahy v týchto dátach boli správne detekované. Fungovanie aplikácie a výsledky práce ilustrujeme.
Abstract (in English)
Recently human disease studies began to rely more and more on genotyping and genomic sequencing of individuals and a subsequent mass detection of genetic associations between variation (mostly SNPs) and diagnosis. These techniques are now called genome-wide association studies (GWAS). In GWAS we search for relationships between variations and the phenotype in the entire genomes. Detection of associations between single SNPs and a particular phenotype is now common. Unfortunately, the majority of biologicaly relevant relationships involve more than one SNP. These kinds of associations are still problematic to detect. We are looking for ways to solve this problem and efficiently detect compound associations with interacting SNPs. In testing methods applicable to interacting SNPs we often do not have appropriate data with information about all existing interactions and associations. However, the use of simulated data can help. Existing approaches to simulating genomic variation data often do not allow complicated relationships. Here we try to address this problem by designing a data simulator allowing for relatively complex and arbitrary interactions and associations to be embedded into simulated data. We designed a program with a graphical interface allowing the user to specify various parameters used to simulate artificial data. Users can freely specify functions for interactions and associations of several SNPs. Data simulated with our program was tested with GWAS association detection software. In this paper we present the program and its use.
Links
LG13010, research and development projectName: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Acronym: ERCIM-CZ)
Investor: Ministry of Education, Youth and Sports of the CR
7E13011, research and development projectName: THALAssaemia MOdular Stratification System for personalized therapy of beta-thalassemia (Acronym: THALAMOSS)
Investor: Ministry of Education, Youth and Sports of the CR
PrintDisplayed: 16/8/2024 01:39