Profilování  modelových  T-­‐buněčných   metagenomů  s  krátkými  ready   IV105  -­‐  Seminář  z  bioinforma5ky   podzim  2014   Tomáš  Reigl,  357888@mail.muni.cz   Obsah   •  TCR  (T-­‐cell  receptor)   •  iSSAKE   •  Proces  skládání   •  Data   •  Ukázka   TCR  (T-­‐cell  receptor)   •  vysoká  variabilita  –  až  1018  klonotypů  (alespoň  107)   •  V–(D)–J  =  CDR3  oblast   Sanger   +  dlouhé  ready   +  nižší  chybovost   -  porovnávání  délek  readů   -  vysoká  cena   -  nízké  rozlišení   NGS  (Illumina  GAII  Analyzer)   +  nízká  cena   +  vysoké  rozlišení   +  konkrétní  sekvence   -  vyšší  chybovost   -  krátké  ready  (nutná  rekonstrukce)   TCR  (T-­‐cell  receptor)   •  vysoká  variabilita  –  až  1018  klonotypů  (alespoň  107)   •  V–(D)–J  =  CDR3  oblast   Sanger   +  dlouhé  ready   +  nižší  chybovost   -  porovnávání  délek  readů   -  vysoká  cena   -  nízké  rozlišení   NGS  (Illumina  GAII  Analyzer)   +  nízká  cena   +  vysoké  rozlišení   +  konkrétní  sekvence   -  vyšší  chybovost   -  krátké  ready  (nutná  rekonstrukce)   iSSAKE  (immuno-­‐SSAKE)   •  nový  sekvenační  přístup  a  socware   •  kompilace  krátkých  readů  z  paralelního   sekvenování   •  profilování  metagenomů  T-­‐buněk   (SSAKE  =  Short  Sequence  Assembly  by  progressive  K-­‐mer  search   and  30  read  Extension  (Warren  et  al.,  2007))     Vstupní  parametry   •  -­‐f    Fasta  file  containing  all  the  [paired  (-­‐p  1)  /  unpaired  (-­‐p  0)]  reads  (required)   •    !  paired  reads  must  now  be  separated  by  ":"   •  -­‐s    Fasta  file  containing  sequences  to  use  as  seeds  exclusively  (specify  only  if  different  from  read  set,  op5onal)   •  -­‐m    Minimum  number  of  overlapping  bases  with  the  seed/con5g  during  overhang  consensus  build  up  (default  -­‐m   15)   •  -­‐o    Minimum  number  of  reads  needed  to  call  a  base  during  an  extension  (default  -­‐o  2)   •  -­‐r    Minimum  base  ra5o  used  to  accept  a  overhang  consensus  base  (default  -­‐r  0.7)   •  -­‐t    Trim  up  to  -­‐t  base(s)  on  the  con5g  end  when  all  possibili5es  have  been  exhausted  for  an  extension  (default  -­‐t   0)>   •  -­‐c    Track  base  coverage  for  each  con5g  (op5onal)   •  -­‐b    Base  name  for  your  output  files  (op5onal)   •  -­‐z    Minimum  con5g  size  to  track  base  coverage  and  read  posi5on  (default  -­‐z  50,  op5onal)   •  -­‐p    Paired-­‐end  reads  used?  (-­‐p  1=yes,  -­‐p  0=no,  default  -­‐p  0)   •  -­‐v    Runs  in  verbose  mode  (-­‐v  1=yes,  -­‐v  0=no,  default  -­‐v  0,  op5onal)   •  ============  Op5ons  below  only  considered  with  -­‐p  1  ============   •  -­‐d    Mean  distance  expected/observed  between  paired-­‐end  reads  (default  -­‐d  200,  op5onal)   •  -­‐e    Error  (%)  allowed  on  mean  distance      e.g.  -­‐e  0.75    ==  distance  +/-­‐  75%  (default  -­‐e  0.75,  op5onal)   •  -­‐k    Minimum  number  of  links  (read  pairs)  to  compute  scaffold  (default  -­‐k  2,  op5onal)   •  -­‐a    Maximum  link  ra5o  between  two  best  con5g  pairs  *higher  values  lead  to  least  accurate  scaffolding*  (default  -­‐a   0.7,  op5onal)   •  -­‐g    Fasta  file  containing  unpaired  sequence  reads  (op5onal)   Skládání  sekvencí   •  vysoký  překryv  v  oblas5  V,  J  a  C   •  vysoký  počet  jedinečných  sekvencí  v  CDR3   •  využívání  anotovaných  oblasz  V  (3’)  a  J  (5’)   pro  začátky  skládání   •  přidání  náhodné  báze  do  V–D–J  spojení   •  delece  báze  na  3ʹ′  V   •  delece  báze  na  5ʹ′  J   Testovací  soubor   •  Genbank  TCRβ  mRNA   •  N  =  1  000  000   •  36,  42  nebo  50  nukleo5dů  dlouhé  ready   prak5cká  ukázka   Děkuji  za  pozornost.