Metagenomika – Vyhodnocení dat (16S rRNA)
Petra Vídeňská Ph.D.


NGS formáty
•Samotná sekvence + informace o kvalitě jednotlivých nukleotidů •454 à .sff – lze rozdělít na dva
podsoubory .fasta a .qual (kvalita)
•Illumina, IonTorrent - FastQ

FastQ formát
bioinformatika.pdf - Adobe Acrobat Pro DC


bioinformatika.pdf - Adobe Acrobat Pro DC
FastQ formát


bioinformatika.pdf - Adobe Acrobat Pro DC
FastQ formát – quality score


•Rozřazení vzorků podle značek
Analýza dat (Qiime)


Rozřazení vzorků podle značek
combined_seqs_opatovice.fna - Microsoft Word


•Rozřazení vzorků podle značek
•Denoising – odstranění chyb vzniklých sekvenací – pouze 454 data
•
Analýza dat (Qiime)

Denoising – pouze 454
combined_seqs_opatovice.fna - Microsoft Word
www.nature.com/nature/journal/v488/n7410/extref/nature11319-s1.pdf - Google Chrome
komunita
sekvenační běh
komunita
sekvenační běh
•

•Rozřazení vzorků podle značek
•Denoising – odstranění chyb vzniklých sekvenací
•Úprava sekvencí - délka, kvalita
Analýza dat (Qiime)

Úprava sekvencí
cutseq.fna_rep_set.fasta - Microsoft Word


•Rozřazení vzorků podle značek
•Denoising – odstranění chyb vzniklých sekvenací
•Úprava sekvencí - délka, kvalita
•Tvorba OTUs na základě 97% podobnosti
•Tvorba reprezentativních sekvencí a jejich taxonomické zařazení (RDP)
•
Analýza dat (Qiime)

Tvorba OTUs
Microsoft Excel - Sešit1 [režim kompatibility]


•Rozřazení vzorků podle značek
•Denoising – odstranění chyb vzniklých sekvenací
•Úprava sekvencí - délka, kvalita
•Tvorba OTUs na základě 97% podobnosti
•Tvorba reprezentativních sekvencí a jejich taxonomické zařazení (RDP)
•Odstranění chimér
•Vizualizace
•Výpočet indikátorů diverzity, rarefakční křivky
Analýza dat (Qiime)

Třídění sekvencí
•U 454 - potřeba fna a qual soubor nebo sff file
•U Illumina - FastQ
•Mapping file – nutné zadat jméno vzorků, barcode, primer, název •Lze zadat mnoho dalších kriterií
(minimální a maximální délku, počet chyb v primeru, počet chyb v MIDu - značící sekvenci, minimum
quality score,...)
•
•

#SampleID
BarcodeSequence
LinkerPrimerSequence
ReversePrimer
Treatment
Description
1
ACGCTCGACA
GGAGGCAGCAGTRRGGAAT
CTACCRGGGTATCTAATCC
Control_1
stre_control_chicken_0
2
AGACGCACTC
GGAGGCAGCAGTRRGGAAT
CTACCRGGGTATCTAATCC
Control_2
tet_control_chicken_0
3
AGCACTGTAG
GGAGGCAGCAGTRRGGAAT
CTACCRGGGTATCTAATCC
atb_1
stre_chicken_2b_I.D._3
4
ATCAGACACG
GGAGGCAGCAGTRRGGAAT
CTACCRGGGTATCTAATCC
atb_2
tet_chicken_2b_I.D._4
#SampleID
BarcodeSequence
LinkerPrimerSequence
ReversePrimer
Treatment
Description
1
ACGCTCGACA
CTACCRGGGTATCTAATCC
GGAGGCAGCAGTRRGGAAT
Control_1
stre_control_chicken_0
2
AGACGCACTC
CTACCRGGGTATCTAATCC
GGAGGCAGCAGTRRGGAAT
Control_2
tet_control_chicken_0_I
3
AGCACTGTAG
CTACCRGGGTATCTAATCC
GGAGGCAGCAGTRRGGAAT
atb_1
stre_chicken_2b_I.D._3
4
ATCAGACACG
CTACCRGGGTATCTAATCC
GGAGGCAGCAGTRRGGAAT
atb_2
tet_chicken_2b_I.D._4
Ukázka mapping file

Ukázka výstupů - grafy
KiNG 2.16 Taxa Summaries - Maxthon 2.5.14 Taxa Summaries - Maxthon 2.5.14


Analýza
•
chao1 clanek6-ino vyvoj

I:\Videnska\slepice-evropa\konecne verze\grafy\bac_15.png
Analýza
I:\Videnska\opatovice_dodelavka\Odeslano\PCoA_ploty_nove.TIF I:\Videnska\slepice-evropa\konecne
verze\grafy\brojler_nosnice.PNG

Vyhodnocování
•


Qiime
•http://www.qiime.org/svn_documentation/index.html
•Pracuje se v příkazovém řádku, nutné znát základní příkazy
QIIME Tutorials — Homepage - Windows Internet Explorer

Příkazový řádek
Příkazový řádek


Příkazy
•
check_id_map.py -m mapa.txt -o mapping_output –v
quality_scores_plot.py -q seqs.qual -o quality_histograms/ -s 20


split_libraries.py -m mapa.txt -f IR -q IR -n 1000000 -o output_split_lib2/ -M 1 -b 13 –z
truncate_only -l


sed '/^[A-Z]/s/[A-Za-z]\{50\}\([A-Za-z]\{340\}\).*/\1/' output_split_lib/seqs.fna > cutseq.fna

pick_otus.py -i cutseq.fna -o picked_otus/

pick_rep_set.py -i picked_otus/cutseq_otus.txt -f cutseq.fna

assign_taxonomy.py -i cutseq.fna_rep_set.fasta -c 0.5 -o assigned_taxonomy/

parallel_align_seqs_pynast.py -i cutseq.fna_rep_set.fasta -t core_set_aligned.fasta -O 6 -o
parallel_align

parallel_identify_chimeric_seqs.py -m ChimeraSlayer -i
parallel_align/cutseq.fna_rep_set_aligned.fasta -a core_set_aligned.fasta -o chimeric_seqs.txt -v

filter_fasta.py -f parallel_align/cutseq.fna_rep_set_aligned.fasta -o
non_chimeric_rep_set_aligned.fasta -s chimeric_seqs.txt -n

make_otu_table.py -i otu_map.txt -o otu_table.biom -e chimeric_seqs.txt -t taxonomy.txt

Ukázka příkazů
split_libraries.py – Split libraries according to barcodes specified in mapping file — Homepage -
Google Chrome

Ukázka příkazů
•
split_libraries.py – Split libraries according to barcodes specified in mapping file — Homepage -
Google Chrome

mothur
•http://www.mothur.org/
mothur - Mozilla Firefox
https://www.youtube.com/watch?v=X4aV4J8FkEU&nohtml5=False

Qiime vs. mothur
•http://blog.mothur.org/2016/01/12/mothur-and-qiime/
mothur and QIIME - Mozilla Firefox

RDP
•http://rdp.cme.msu.edu
RDP Release 11 -- Sequence Analysis Tools - Mozilla Firefox
http://rdp.cme.msu.edu/tutorials/Submission_Tools/fastq.html
http://rdp.cme.msu.edu/tutorials/init_process/RDPtutorial_INITIAL-PROCESS.html
http://rdp.cme.msu.edu/tutorials/init_process/RDPtutorial_INITIAL-PROCESS_pe.html

RDP
Pyrosequencing Tools - Google Chrome


GreenGenes
•http://greengenes.lbl.gov
greengenes.lbl.gov - Aligned 16S rDNA data and tools - Google Chrome
http://greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-Tutorial_2Main2.cgi

Megan
•http://ab.inf.uni-tuebingen.de/software/megan5/
MEGAN 4 - MEtaGenome ANalyzer — Algorithms in Bioinformatics - Google Chrome

Taxonomická analýza
•


SEED analýza
•


KEGG analýza
•


EBI Metagenomic
•https://www.ebi.ac.uk/metagenomics/
EBI metagenomics: archiving, analysis and integration of metagenomics data < EBI metagenomics <
EMBL-EBI - Mozilla Firefox
https://www.ebi.ac.uk/metagenomics/projects/SRP000319/samples/SRS000998/runs/SRR029687/results/vers
ions/1.0

EBI pipeline
About EBI metagenomics < EBI metagenomics < EMBL-EBI - Mozilla Firefox


Taxonomická analýza
Sample analysis results: 100 day old Infant gut microbiome < EBI metagenomics < EMBL-EBI - Google
Chrome

Funkční analýza
Sample analysis results: 100 day old Infant gut microbiome < EBI metagenomics < EMBL-EBI - Google
Chrome

MG - RAST
•http://metagenomics.anl.gov/
MG-RAST - Home - Google Chrome
http://metagenomics.anl.gov/metagenomics.cgi?page=MetagenomeOverview&metagenome=4447943.3

Taxonomická analýza
MG-RAST - Metagenome Analysis - Google Chrome


KEGG analýza
MG-RAST - KeggMapper - Google Chrome


•http://metagenomics.anl.gov/metagenomics.cgi?page=MetagenomeOverview&metagenome=4447943.3
•


Silva
•http://www.arb-silva.de/
Silva - Mozilla Firefox

Srovnání databází
The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC


The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC
Srovnání databází


The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC
Srovnání databází


Metagenomic Surveys of Gut Microbiota - 1-s2.0-S1672022915000546-main.pdf - Mozilla Firefox
Další vyhodnocovací programy
Metagenomic Surveys of Gut Microbiota - 1-s2.0-S1672022915000546-main.pdf - Mozilla Firefox

PICRUST
Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences -
nbt.2676.pdf - Mozilla Firefox

The PICRUSt workflow. : Predictive functional profiling of microbial communities using 16S rRNA
marker gene sequences : Nature Biotechnology : Nature Publishing Group - Mozilla Firefox
PICRUST

PICRUSt recapitulates biological findings from the Human Microbiome Project. : Predictive
functional profiling of microbial communities using 16S rRNA marker gene sequences : Nature
Biotechnology : Nature Publishing Group - Mozilla Firefox
PICRUST

Variation in inference accuracy across functional modules within single genomes. : Predictive
functional profiling of microbial communities using 16S rRNA marker gene sequences : Nature
Biotechnology : Nature Publishing Group - Mozilla Firefox
PICRUST

•http://picrust.github.io/picrust/
PICRUSt: Phylogenetic Investigation of Communities by Reconstruction of Unobserved States — PICRUSt
1.0.0-dev documentation - Mozilla Firefox
PICRUST

•http://picrust.github.io/picrust/tutorials/qiime_tutorial.html#qiime-tutorial
Analyzing metagenomes with QIIME — PICRUSt 1.0.0-dev documentation - Mozilla Firefox
PICRUST

Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox
PRMT


PRMT
Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox


PRMT
Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox
Example of generating an EMM from metagenomic data. This figure is an example of generating a
simple EMM with hypothetical data. Letters a-f represent unique enzyme functions identified in the
annotation of a hypothetical set of metagenomes. In (A), the set of all enzyme reactions for enzyme
functions a-f between compounds C1-C5 from a database of possible reactions is listed. In (B), a
metabolome is constructed from the reactions identified in A. (C) Shows the connectivity matrix of
the network in B. (D) Is the complete EMM for metagenomic annotated enzyme functions a-f,
normalizing values in C such that the sum of all inputs to a compound is 1 and the sum of all
outputs from a compound is -1.

PRMT
Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox
Strong correlations between environmental metabolites, metabolic subsystems, and bacterial
population structure.
This network is a graphical representation of strong (i.e. in the top or bottom 5th percentile of
randomized resamples) correlations between relative abundance of measured environmental metabolites
(diamonds), relative abundance of metagenomic reads annotated to metagenomic SEED subsystems
(hexagons), and relative abundance of bacterial taxa (circles) across seasonal variation for the
Western English Channel L4 station. Strong positive correlations are represented by solid lines and
strong negative correlations by dashed lines.

PRMT
Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox
L4 Environmental Metabolome
In the figure, edges represent enzyme functions identified in annotated metagenomes. Nodes are
predicted metabolites, inferred by the reactions catalyzed by detected enzyme functions. Nodes are
highlighted if calculated PRMT scores for seasonal metagenomes correlate strongly (i.e. in the top
or bottom 5th percentile of randomized resamples) with relative abundance of measured environmental
parameters (Red for Total Organic Carbon, blue for Total Organic Nitrogen, and gold for Soluble
Reactive Phosphorus). Edges are highlighted in one of 23 colors if they connect nodes that
correlate with relative abundance of a bacterial phylum. Figur
e was generated using Cytoscape v2.6.1. The network and calculated PRMT-scores in this figure is
available for download as additional file 3, figure S1.

Diverzita
•a vs b diverzita
•https://methodsblog.wordpress.com/2015/05/27/beta_diversity/

a vs b diverzita
•
KiNG 2.16
vs.

Indexy a diverzity
•Shannon index – započítává vyrovnanost (eveness) i abundanci druhů vyskytujících se ve vzorku
•
•Simpson’s index – zvažuje výskyt nejvíce zastoupených druhů à měří pravděpodobnost, že dvě náhodně
vybraná individua budou patřit do stejného druhu

•Chao1 estimator – odhaduje pravdivou druhovou diverzitu ve vzorku
http://palaeo-electronica.org/2011_1/238/estimate.htm
Indexy a diverzity