Anotace
Rod Treponema zahrnuje 4 patogenní, blízce příbuzné druhy a
poddruhy, které vyvolávají u člověka onemocnění s odlišnou
klinickou manifestací. T. pallidum subsp. pallidum je
etiologickým agens sexuálně přenosné syfilis (lues), T.
pallidum subsp. pertenue a T. pallidum subsp. endemicum
vyvolávají endemické nevenerické treponemální infekce (yaws a
endemická syfilis) a T. carateum způsobuje onemocnění zvané
pinta. K těmto patogenním treponematům lze zařadit blízce
příbuzný druh T. paraluiscuniculi, který způsobuje venerické
onemocnění králíků a který není infekční pro člověka. Tyto
zástupce nelze od sebe navzájem odlišit morfologicky či
serologicky, diagnostika se provádí na základě
epidemiologických studií a na základě klinické manifestace
onemocnění. Lze předpokládat, že různá míra invazivity a
patogenity je způsobena genetickými rozdíly v genomech
treponemálních kmenů, ty však vykazují nezvykle vysokou
sekvenční příbuznost (~99%). Genetická variabilita mezi
patogenními treponematy tak byla popsána pouze na úrovni
několika genů, bylo publikováno také velmi málo prací,
zabývajících se genetickou variabilitou na úrovni celých genomů
či zabývajících se vnitrodruhovou a mezidruhovou variabilitou
mezi treponemálními kmeny.
V této práci bylo provedeno restrikční mapování genomů čtyř
blízce příbuzných treponemálních kmenů metodou „whole-genome
fingerprinting“ (WGF). Jednalo se o kmeny Nichols, SS14 (T.
pallidum subsp. pallidum), Samoa D (T. pallidum subsp.
pertenue) a Cuniculi A (T. paraluiscuniculi). Genomy
patogenních kmenů Nichols, SS14, Samoa D a nepatogenního kmene
Cuniculi A vykazovaly stejné uspořádání genů a nebyly v nich
identifikovány žádné rozsáhlé strukturní změny. Velikosti
genomů se pohybovaly v rozmezí 1133,4 - 1139,6 kbp, což
odpovídá 0,54 % maximálního rozdílu ve velikosti genomů
studovaných kmenů ve srovnání s genomem kmene Nichols. Celkově
bylo analyzováno u kmene Nichols 2041 restrikčních míst,
představujících tak úsek DNA o velikosti 11838 bp (1,04 %
genomu kmene Nichols). Jedno odlišné restrikční místo bylo
detegováno u kmene Nichols, 6 u kmene SS14, 39 u kmene Samoa D
a 195 u kmene Cuniculi A v porovnání s referenční sekvencí
kmene Nichols. Na základě restrikční analýzy byla určena
sekvenční příbuznost genomů jednotlivých kmenů: 98,35% u kmene
Cuniculi A, 99,67% u kmene Samoa D a 99,95% u kmene SS14 v
porovnání s genomem kmene Nichols (100%).
U kmene Nichols byly analyzovány 3 oblasti, 1 delece (64 bp) a
2 inzerce (420 a 1204 bp), které vykázaly evidentní změny v
restrikčních profilech v porovnání s teoretickým restrikčním
profilem kmene Nichols. U kmene SS14 byly analyzovány 2 delece
(64 a 168 bp) a 2 inzerce (420 a 1255 bp), u kmene Samoa D bylo
analyzováno 7 delecí (v rozmezí 30 - 377 bp) a 4 inzerce (v
rozmezí 52 - 1269 bp) a u kmene Cuniculi A bylo analyzováno 13
delecí (v rozmezí 12 - 2609 bp) a 10 inzercí (v rozmezí 30 -
1216 bp). Variabilní oblasti společné pro všechny studované
kmeny byly detegovány v intergenové oblasti TP0126-TP0127 a v
repetitivních oblastech genů arp (TP0433-TP0434) a TP0470. V
intergenové oblasti TP0126-TP0127 byla detegována inzerce
sekvence obsahující sekvenční motivy genu tprK (TP0897). Tato
tprK-like sekvence se lišila mezi kmeny svou délkou a byla
lokalizována v 3’-oblasti přiléhající ke genu tprD (TP0131),
kde pravděpodobně slouží jako donorové místo pro variabilní
oblasti genu tprK (TP0897). Gen arp se u jednotlivých kmenů
lišil počtem repetic (v rozmezí 12 - 21) i strukturou
jednotlivých repetitivních motivů. Různý počet repetic (v
rozmezí 6 - 17) byl zjištěn také v hypotetickém genu TP0470.
Vysoká sekvenční variabilita mezi studovanými treponemálními
kmeny byla identifikována také u hypotetických genů TP0136 a
TP0548.
U kmene Samoa D byly navíc nalezeny delece v hypotetických
genech TP0067, TP0132, TP0136, TP1030 a tprL (TP1031) a v
intergenových oblastech TP0127-TP0128 a TP1030-1031, 2 inzerce
byly detegovány v genu tprF (TP0316) a v intergenové oblasti
TP0548-TP0549. U kmene Cuniculi A se většina detegovaných změn
nacházela v genech tpr (tprD, tprE, tprF, tprG, tprI, tprJ a
tprL) nebo v hypotetických genech, které byly lokalizovány v
jejich blízkosti (TP0127, TP0128, TP0129, TP0133, TP0134,
TP0135, TP0315, TP0617, TP0618, TP0619, TP1029 a TP1030). Kromě
delecí v genech ushA (5’-nukleotidáza; TP0104) a mglb-1
(metylgalaktozidový ABC přenašeč; TP0545) a delecí v genech tpr
byly ostatní delece či inzerce u kmene Cuniculi A detegovány v
hypotetických genech či v intergenových oblastech.
Výsledky potvrdily vysokou sekvenční příbuznost mezi
vyšetřenými kmeny. Tyto výsledky tak poukazují na možnost, že
odlišná klinická manifestace, různá míra patogenity a
invazivity poddruhů T. pallidum je podmíněna relativně malými
odlišnostmi v příslušných genomech. V porovnání s kmenem
Nichols bylo nejvíce změn v restrikčních místech a nejvíce
genetických rozdílů detegováno v genomu kmene Cuniculi A (T.
paraluiscuniculi), následoval genom kmene Samoa D (T. pallidum
subsp. pertenue) a kmene SS14 (T. pallidum subsp. pallidum).
Tyto výsledky tak odpovídaly sekvenční příbuznosti genomů
analyzovaných kmenů a zároveň poukázaly na genetickou
variabilitu mezi genomy zástupců způsobující syfilis (kmeny
Nichols a SS14). U kmene Cuniculi A bylo nejvíce genetických
rozdílů detegováno v tpr genech a v hypotetických genech, které
se nacházely v jejich blízkosti. Geny tpr („Treponema repeat
gene“) kódují proteiny, které byly predikovány u kmene Nichols
jako potenciální virulenční faktory. U těchto genů byla také
popsána vysoká sekvenční diverzita mezi treponemálními kmeny.
Je pravděpodobné, že tyto geny mohou hrát důležitou úlohu při
fenotypové variaci treponemálních kmenů a mohou být zodpovědné
za rozdílnou klinickou manifestaci treponemálních onemocnění.
Identifikované nukleotidové záměny či detegované genetické
rozdíly by v budoucnu mohly být využity při molekulární
identifikaci treponemálních kmenů a izolátů. Jako příklad mohou
sloužit repetitivní oblasti genu arp (TP0433-TP0434) či
variabilní sekvence hypotetických genů TP0136 a TP0548, které
již byly úspěšně využity při molekulární typizaci
treponemálních kmenů a klinických izolátů. Metoda WGF byla také
použita pro kontrolu výsledné genomové sekvence u případných
diskrepancí v sekvencích paralogních tpr genů u kmenů SS14,
Samoa D a Cuniculi A.
Bylo provedeno několik pokusů o celogenomovou sekvenaci kmenů
Gauthier (T. pallidum subsp. pertenue), Fribourg-Blanc
(nespecifikovaný opičí izolát) a Bosnia A (T. pallidum subsp.
endemicum), než se přistoupilo k celogenomové sekvenaci těchto
kmenů metodou „pooled segment genomic sequencing“ (PSGS). Cílem
této práce byla pouze příprava vzorků s využitím XL PCR
amplifikace fragmentů pokrývající celý genom treponemálních
kmenů. Obdobně jako u metody WGF byly genomy 3 treponemálních
kmenů rozděleny do překrývajících se oblastí (tzv.
TP-intervalů). Jednotlivé oblasti byly amplifikovány a
ekvimolárně smíchány tak, aby vzniklá směs PCR produktů
reprezentovala celý genom pro konkrétní analyzovaný kmen. Takto
připravené vzorky kmenů byly sekvencovány s využitím „next
generation“ sekvenačních technik. U kmenů Gauthier a
Fribourg-Blanc bylo celkově amplifikováno 134 TP intervalů v
rozmezí délek 1017 - 21000 bp, pro kmen Bosnia A bylo
amplifikováno 214 TP intervalů v rozmezí délek 801 - 12529 bp.
Dva úseky se nepodařilo amplifikovat u kmene Fribourg-Blanc a
Bosnia A. U kmene Fribourg-Blanc se jednalo o úseky mezi
koordinátami 1046194 - 1052539 (6346 bp) a 1123251 - 1123648
(398 bp). U kmene Bosnia A se nepodařilo amplifikovat úseky
mezi koordinátami 332290 - 335395 (3106 bp) a 1123251 - 1123648
(398 bp).
Na základě vysoké sekvenční příbuznosti mezi tpr geny a
vzhledem k přítomnosti dvou téměř identických operonů kódující
ribozomální RNA geny byly vytvořeny 4 genomové podoblasti.
Amplifikované PCR produkty pak byly smíchány a rozděleny do
těchto genomových podoblastí tak, aby sekvenčně příbuzné tpr
geny a rRNA operony byly od sebe navzájem separovány. Každé z
těchto 4 podoblastí byla přiřazena při přípravě sekvenační
knihovny odlišná MID sekvence, umožňující zpětně rozlišit
výstupních data a přiřadit tak homologní sekvence k příslušné
podoblasti. Připravené vzorky kmenů Gauthier, Fribourg-Blanc a
Bosnia A byly sekvencovány pomocí 454 a Illumina. Metoda PSGS
přes svoji časovou náročnost umožnila sekvencovat genomy
nekultivovatelných patogenních zástupců treponem z omezených
zdrojů DNA, které navíc vykazovaly nízký podíl zastoupené
treponemální DNA. Touto metodou tak byly sekvencovány dosud
nepublikované sekvence genomů zástupců T. pallidum subsp.
pertenue Gauthier, T. pallidum subsp. endemicum Bosnia A a
nespecifikovaného opičího izolátu Fribourg-Blanc. …víceméně
Abstract
The genus Treponema comprises four pathogenic species and
subspecies showing various degrees of clinical manifestation of
treponemal diseases in humans. T. pallidum subsp. pallidum is
the causative agent of syphilis, T. pallidum subsp. pertenue
and T. pallidum subsp. endemicum cause endemic nonvenereal
treponemal infections (yaws and endemic syphilis,
respectively), T. carateum is the causative agent of pinta. The
closely related T. paraluiscuniculi is not infectious to humans
but causes venereal spirochetosis in rabbits. The T. pallidum
subspecies and T. paraluiscuniculi are morphologically
indistinguishable and appear to induce similar immune response.
The genetic differences between T. pallidum subspecies and T.
paraluiscuniculi must reflect the observed differences in host
specificity, epidemiology and clinical manifestations. However,
the genomes of these pathogenic agents show an unusual degree
of sequence similarity (~99%). In fact, very little is known
about the genetic differences on the whole genome scale in the
group of pathogenic treponemes.
In this study, four genomes of closely related
treponemal strains including Nichols, SS14 (T. pallidum subsp.
pallidum), Samoa D (T. pallidum subsp. pertenue) and Cuniculi A
(T. paraluiscuniculi) were compared using whole-genome
fingerprinting (WGF) and sequencing of divergent chromosomal
regions. Using this systematic whole-genome comparison, no
large genome rearrangements were observed among treponemal
strains and the genomes shared the same gene order and showed
high degree of sequence similarity. The estimated genome sizes
ranged between 1133.4 to 1139.6 kbp representing a maximal
genome size difference of 0.54% when compared to the Nichols
genome. Altogether, restriction target site (RTS) analysis
detected 2041 individual RTSs in the Nichols genome
representing the length of 11,838 bp (1.04%). When compared the
reference sequence of the published Nichols genome, the total
number of 1, 6, 39 and 195 different RTSs were found in the
Nichols, SS14, Samoa D and Cuniculi A genomes, respectively.
With the assumption that most differences in RTSs were caused
by single nucleotide changes, the estimated sequence similarity
was calculated for all genomes. When compared to the Nichols
genome (100%), the estimated genome sequence identity was
98.35%, 99.67% and 99.95% for the strains Cuniculi A, Samoa D
and SS14, respectively.
Subsequent sequencing of heterologous regions determined by
analyzing of the restriction profiles revealed deletions and
insertions (indels) in the genomes of all investigated strains.
Altogether, 1 deletion (64 bp) and 2 insertions (1204 and 420
bp), 2 deletions (64 and 168 bp) and 2 insertions (420 and 1255
bp), 7 deletions (in the range of 30 - 377 bp) and 4 insertions
(in the range of 52 - 1269 bp), 13 deletions (in the range of
12 - 2609 bp) and 10 insertions (in the range of 30 - 1216 bp)
were found in the genomes of the strains Nichols, SS14, Samoa D
and Cuniculi A, respectively.
Three regions showing intrastrain heterogeneity were identified
in the strain Nichols comprising the insertion of tprK-like
sequence within the intergenic region TP0126-TP0127 and
deletions and/or insertions of variable number of tandem repeat
units in the hypothetical genes arp (TP0433-TP0434) and TP0470.
Interestingly, indels in the same regions were found in the
SS14, Samoa D and Cuniculi A. The inserted tprK-like sequence
varied in the length among treponemal strains and was located
in the 3' flanking region of tprD (TP0131), most likely as a
donor site for variable regions of tprK gene (TP0897). Central
repeat region composed of 60 bp repeat motifs was highly
variable with regard to the number of repeat units and the
sequence of the nucleotide repeat motifs in the genomes of all
analyzed strains and the number of repetitions ranged between
12 and 21. Similarly, a variable number of repetitive
sequences was found in hypothetical gene TP0470. The number of
repetitions (24 bp in length) ranged between 6 and 17.
Furthermore, a high degree of sequence variability was
determined in the hypothetical genes TP0136 and TP0548 among
the treponemal strains.
In addition to three regions, the WGF approach identified 5
deletions in the hypothetical genes TP0067, TP0132, TP0136,
TP1030 and tprL (TP1031), 2 deletions in the intergenic
regions TP0127-TP0128 and TP1030-TP1031, 1 insertion in the
tprF gene (TP0316) and 1 insertion in the intergenic region
TP0548-TP0549 in the Samoa D genome. In the Cuniculi A genome,
all of prominent sequence changes were preferentially localized
in tpr genes (tprD, tprE, tprF, tprG, tprI, tprJ and tprL) and
in the hypothetical genes in the vicinity of tpr genes (TP0127,
TP0128, TP0129, TP0133, TP0134, TP0135, TP0315, TP0617, TP0618,
TP0619, TP1029 and TP1030). With the exception of tpr genes,
the ushA gene (5’-nucleotidase, TP0104) and the mglb-1 gene
(methylgalactoside ABC transporter, TP0545), all other detected
indels or sequence changes were mapped to the genes encoding
hypothetical proteins or intergenic regions.
These results indicate a high sequence similarity among the
analysed treponemal strains. Different degrees of invasiveness
and pathogenicity of the treponemal strains thus appear to
depend on relatively small differences in their genomes. The
data presented indicate that the genomes of T. pallidum
subspecies and T. paraluiscuniculi are very closely related,
and interestingly, showed the genetic variation between the two
syphilis pathogens (Nichols and SS14 strains). The most of the
observed differences were localized in tpr loci and in the
vicinity of these loci, suggesting their possible role in the
host range and pathogenicity of T. pallidum subspecies and T.
paraluiscuniculi. In further studies, the identified genetic
changes could be used for molecular identification of
individual treponemal strains and isolates. In the strains
SS14, Samoa D and Cuniculi A, WGF approach was used for
verification of the whole genome assembly in the cross-reacting
repeat regions (tpr genes, arp and TP0470 genes) and the
insertions of unique sequences.
Several attempts were performed in the effort to sequence the
whole genomes of the strains Gauthier (T. pallidum subsp.
pertenue), Fribourg-Blanc (unclassified simian isolate) and
Bosnia A (T. pallidum subsp. endemicum). In this study, pooled
segment genomic sequencing (PSGS) was used for whole-genome
sequencing of the investigated strains. Analogously with the
WGF approach, the chromosomal DNA of the investigated strains
were amplified in the overlapping regions (TP intervals) and
the amplified PCR products were pooled to obtain the equimolar
mixture representing the whole genome of the specific
treponemal strain. Altogether, 134 TP intervals ranged between
1017 - 21000 bp were amplified in the strains Gauthier and
Fribourg-Blanc, whereas 214 TP intervals ranged between 801 -
12529 were amplified in the strain Bosnia A. Two regions
between coordinates 1046194 - 1052539 (6346 bp) and 1123251 -
1123648 (398 bp) and two regions between coordinates 332290 -
335395 (3106 bp) and 1123251 - 1123648 (398 bp) were not
amplified in the genomes of the strains Fribourg-Blanc and
Bosnia A, respectively.
To avoid missassembly in the cross-reacting regions of highly
similar sequences of tpr genes and two copies of nearly
identical rRNA operons in the genomes of the investigated
strains, amplified PCR products were mixed into 4 separated
pools. Furthermore, the pooled samples were sequenced using the
next-generation DNA sequencing methods (454 and Illumina). The
specific MID sequences were used for separating the data from
the specific pools. Although time-consuming, the PSGS approach
allowed to sequence the whole genomes of uncultivable
pathogenic treponemal strains from the limited sources of
chromozomal DNA. Thus, the genomes of T. pallidum subsp.
pertenue Gauthier, T. pallidum subsp. endemicum Bosnia A and
unclassified simian isolate Fribourg-Blanc were sequenced. …víceméně