Metagenomika – Vyhodnocení dat (16S rRNA) Petra Vídeňská Ph.D. NGS formáty •Samotná sekvence + informace o kvalitě jednotlivých nukleotidů •454 à .sff – lze rozdělít na dva podsoubory .fasta a .qual (kvalita) •Illumina, IonTorrent - FastQ FastQ formát bioinformatika.pdf - Adobe Acrobat Pro DC bioinformatika.pdf - Adobe Acrobat Pro DC FastQ formát bioinformatika.pdf - Adobe Acrobat Pro DC FastQ formát – quality score •Rozřazení vzorků podle značek Analýza dat (Qiime) Rozřazení vzorků podle značek combined_seqs_opatovice.fna - Microsoft Word •Rozřazení vzorků podle značek •Denoising – odstranění chyb vzniklých sekvenací – pouze 454 data • Analýza dat (Qiime) Denoising – pouze 454 combined_seqs_opatovice.fna - Microsoft Word www.nature.com/nature/journal/v488/n7410/extref/nature11319-s1.pdf - Google Chrome komunita sekvenační běh komunita sekvenační běh • •Rozřazení vzorků podle značek •Denoising – odstranění chyb vzniklých sekvenací •Úprava sekvencí - délka, kvalita Analýza dat (Qiime) Úprava sekvencí cutseq.fna_rep_set.fasta - Microsoft Word •Rozřazení vzorků podle značek •Denoising – odstranění chyb vzniklých sekvenací •Úprava sekvencí - délka, kvalita •Tvorba OTUs na základě 97% podobnosti •Tvorba reprezentativních sekvencí a jejich taxonomické zařazení (RDP) • Analýza dat (Qiime) Tvorba OTUs Microsoft Excel - Sešit1 [režim kompatibility] •Rozřazení vzorků podle značek •Denoising – odstranění chyb vzniklých sekvenací •Úprava sekvencí - délka, kvalita •Tvorba OTUs na základě 97% podobnosti •Tvorba reprezentativních sekvencí a jejich taxonomické zařazení (RDP) •Odstranění chimér •Vizualizace •Výpočet indikátorů diverzity, rarefakční křivky Analýza dat (Qiime) Třídění sekvencí •U 454 - potřeba fna a qual soubor nebo sff file •U Illumina - FastQ •Mapping file – nutné zadat jméno vzorků, barcode, primer, název •Lze zadat mnoho dalších kriterií (minimální a maximální délku, počet chyb v primeru, počet chyb v MIDu - značící sekvenci, minimum quality score,...) • • #SampleID BarcodeSequence LinkerPrimerSequence ReversePrimer Treatment Description 1 ACGCTCGACA GGAGGCAGCAGTRRGGAAT CTACCRGGGTATCTAATCC Control_1 stre_control_chicken_0 2 AGACGCACTC GGAGGCAGCAGTRRGGAAT CTACCRGGGTATCTAATCC Control_2 tet_control_chicken_0 3 AGCACTGTAG GGAGGCAGCAGTRRGGAAT CTACCRGGGTATCTAATCC atb_1 stre_chicken_2b_I.D._3 4 ATCAGACACG GGAGGCAGCAGTRRGGAAT CTACCRGGGTATCTAATCC atb_2 tet_chicken_2b_I.D._4 #SampleID BarcodeSequence LinkerPrimerSequence ReversePrimer Treatment Description 1 ACGCTCGACA CTACCRGGGTATCTAATCC GGAGGCAGCAGTRRGGAAT Control_1 stre_control_chicken_0 2 AGACGCACTC CTACCRGGGTATCTAATCC GGAGGCAGCAGTRRGGAAT Control_2 tet_control_chicken_0_I 3 AGCACTGTAG CTACCRGGGTATCTAATCC GGAGGCAGCAGTRRGGAAT atb_1 stre_chicken_2b_I.D._3 4 ATCAGACACG CTACCRGGGTATCTAATCC GGAGGCAGCAGTRRGGAAT atb_2 tet_chicken_2b_I.D._4 Ukázka mapping file Ukázka výstupů - grafy KiNG 2.16 Taxa Summaries - Maxthon 2.5.14 Taxa Summaries - Maxthon 2.5.14 Analýza • chao1 clanek6-ino vyvoj I:\Videnska\slepice-evropa\konecne verze\grafy\bac_15.png Analýza I:\Videnska\opatovice_dodelavka\Odeslano\PCoA_ploty_nove.TIF I:\Videnska\slepice-evropa\konecne verze\grafy\brojler_nosnice.PNG Vyhodnocování • Qiime •http://www.qiime.org/svn_documentation/index.html •Pracuje se v příkazovém řádku, nutné znát základní příkazy QIIME Tutorials — Homepage - Windows Internet Explorer Příkazový řádek Příkazový řádek Příkazy • check_id_map.py -m mapa.txt -o mapping_output –v quality_scores_plot.py -q seqs.qual -o quality_histograms/ -s 20 split_libraries.py -m mapa.txt -f IR -q IR -n 1000000 -o output_split_lib2/ -M 1 -b 13 –z truncate_only -l sed '/^[A-Z]/s/[A-Za-z]\{50\}\([A-Za-z]\{340\}\).*/\1/' output_split_lib/seqs.fna > cutseq.fna pick_otus.py -i cutseq.fna -o picked_otus/ pick_rep_set.py -i picked_otus/cutseq_otus.txt -f cutseq.fna assign_taxonomy.py -i cutseq.fna_rep_set.fasta -c 0.5 -o assigned_taxonomy/ parallel_align_seqs_pynast.py -i cutseq.fna_rep_set.fasta -t core_set_aligned.fasta -O 6 -o parallel_align parallel_identify_chimeric_seqs.py -m ChimeraSlayer -i parallel_align/cutseq.fna_rep_set_aligned.fasta -a core_set_aligned.fasta -o chimeric_seqs.txt -v filter_fasta.py -f parallel_align/cutseq.fna_rep_set_aligned.fasta -o non_chimeric_rep_set_aligned.fasta -s chimeric_seqs.txt -n make_otu_table.py -i otu_map.txt -o otu_table.biom -e chimeric_seqs.txt -t taxonomy.txt Ukázka příkazů split_libraries.py – Split libraries according to barcodes specified in mapping file — Homepage - Google Chrome Ukázka příkazů • split_libraries.py – Split libraries according to barcodes specified in mapping file — Homepage - Google Chrome mothur •http://www.mothur.org/ mothur - Mozilla Firefox https://www.youtube.com/watch?v=X4aV4J8FkEU&nohtml5=False Qiime vs. mothur •http://blog.mothur.org/2016/01/12/mothur-and-qiime/ mothur and QIIME - Mozilla Firefox RDP •http://rdp.cme.msu.edu RDP Release 11 -- Sequence Analysis Tools - Mozilla Firefox http://rdp.cme.msu.edu/tutorials/Submission_Tools/fastq.html http://rdp.cme.msu.edu/tutorials/init_process/RDPtutorial_INITIAL-PROCESS.html http://rdp.cme.msu.edu/tutorials/init_process/RDPtutorial_INITIAL-PROCESS_pe.html RDP Pyrosequencing Tools - Google Chrome GreenGenes •http://greengenes.lbl.gov greengenes.lbl.gov - Aligned 16S rDNA data and tools - Google Chrome http://greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-Tutorial_2Main2.cgi Megan •http://ab.inf.uni-tuebingen.de/software/megan5/ MEGAN 4 - MEtaGenome ANalyzer — Algorithms in Bioinformatics - Google Chrome Taxonomická analýza • SEED analýza • KEGG analýza • EBI Metagenomic •https://www.ebi.ac.uk/metagenomics/ EBI metagenomics: archiving, analysis and integration of metagenomics data < EBI metagenomics < EMBL-EBI - Mozilla Firefox https://www.ebi.ac.uk/metagenomics/projects/SRP000319/samples/SRS000998/runs/SRR029687/results/vers ions/1.0 EBI pipeline About EBI metagenomics < EBI metagenomics < EMBL-EBI - Mozilla Firefox Taxonomická analýza Sample analysis results: 100 day old Infant gut microbiome < EBI metagenomics < EMBL-EBI - Google Chrome Funkční analýza Sample analysis results: 100 day old Infant gut microbiome < EBI metagenomics < EMBL-EBI - Google Chrome MG - RAST •http://metagenomics.anl.gov/ MG-RAST - Home - Google Chrome http://metagenomics.anl.gov/metagenomics.cgi?page=MetagenomeOverview&metagenome=4447943.3 Taxonomická analýza MG-RAST - Metagenome Analysis - Google Chrome KEGG analýza MG-RAST - KeggMapper - Google Chrome •http://metagenomics.anl.gov/metagenomics.cgi?page=MetagenomeOverview&metagenome=4447943.3 • Silva •http://www.arb-silva.de/ Silva - Mozilla Firefox Srovnání databází The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC Srovnání databází The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC Srovnání databází Metagenomic Surveys of Gut Microbiota - 1-s2.0-S1672022915000546-main.pdf - Mozilla Firefox Další vyhodnocovací programy Metagenomic Surveys of Gut Microbiota - 1-s2.0-S1672022915000546-main.pdf - Mozilla Firefox PICRUST Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences - nbt.2676.pdf - Mozilla Firefox The PICRUSt workflow. : Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences : Nature Biotechnology : Nature Publishing Group - Mozilla Firefox PICRUST PICRUSt recapitulates biological findings from the Human Microbiome Project. : Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences : Nature Biotechnology : Nature Publishing Group - Mozilla Firefox PICRUST Variation in inference accuracy across functional modules within single genomes. : Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences : Nature Biotechnology : Nature Publishing Group - Mozilla Firefox PICRUST •http://picrust.github.io/picrust/ PICRUSt: Phylogenetic Investigation of Communities by Reconstruction of Unobserved States — PICRUSt 1.0.0-dev documentation - Mozilla Firefox PICRUST •http://picrust.github.io/picrust/tutorials/qiime_tutorial.html#qiime-tutorial Analyzing metagenomes with QIIME — PICRUSt 1.0.0-dev documentation - Mozilla Firefox PICRUST Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox PRMT PRMT Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox PRMT Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox Example of generating an EMM from metagenomic data. This figure is an example of generating a simple EMM with hypothetical data. Letters a-f represent unique enzyme functions identified in the annotation of a hypothetical set of metagenomes. In (A), the set of all enzyme reactions for enzyme functions a-f between compounds C1-C5 from a database of possible reactions is listed. In (B), a metabolome is constructed from the reactions identified in A. (C) Shows the connectivity matrix of the network in B. (D) Is the complete EMM for metagenomic annotated enzyme functions a-f, normalizing values in C such that the sum of all inputs to a compound is 1 and the sum of all outputs from a compound is -1. PRMT Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox Strong correlations between environmental metabolites, metabolic subsystems, and bacterial population structure. This network is a graphical representation of strong (i.e. in the top or bottom 5th percentile of randomized resamples) correlations between relative abundance of measured environmental metabolites (diamonds), relative abundance of metagenomic reads annotated to metagenomic SEED subsystems (hexagons), and relative abundance of bacterial taxa (circles) across seasonal variation for the Western English Channel L4 station. Strong positive correlations are represented by solid lines and strong negative correlations by dashed lines. PRMT Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox L4 Environmental Metabolome In the figure, edges represent enzyme functions identified in annotated metagenomes. Nodes are predicted metabolites, inferred by the reactions catalyzed by detected enzyme functions. Nodes are highlighted if calculated PRMT scores for seasonal metagenomes correlate strongly (i.e. in the top or bottom 5th percentile of randomized resamples) with relative abundance of measured environmental parameters (Red for Total Organic Carbon, blue for Total Organic Nitrogen, and gold for Soluble Reactive Phosphorus). Edges are highlighted in one of 23 colors if they connect nodes that correlate with relative abundance of a bacterial phylum. Figur e was generated using Cytoscape v2.6.1. The network and calculated PRMT-scores in this figure is available for download as additional file 3, figure S1. Diverzita •a vs b diverzita •https://methodsblog.wordpress.com/2015/05/27/beta_diversity/ a vs b diverzita • KiNG 2.16 vs. Indexy a diverzity •Shannon index – započítává vyrovnanost (eveness) i abundanci druhů vyskytujících se ve vzorku • •Simpson’s index – zvažuje výskyt nejvíce zastoupených druhů à měří pravděpodobnost, že dvě náhodně vybraná individua budou patřit do stejného druhu •Chao1 estimator – odhaduje pravdivou druhovou diverzitu ve vzorku http://palaeo-electronica.org/2011_1/238/estimate.htm Indexy a diverzity