Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Создание индексных файлов для программ пакета BLAST
  2. В рабочей директории были созданы индексные файлы по геномам Salmonella typhimurium, Xanthomonas campestris, Pasteurella multocida.

  3. Поиск в геноме участков, кодирующих белки, похожие на заданный
  4. Имея аминокислотную последовательность белка RIR1_Ecoli определим не закодированы ли похожие белки в неаннотированных геномах Salmonella typhimurium, Xanthomonas campestris, Pasteurella multocida.

    Для решения данной задачи была выбрана программа из пакета BLAST - TBLASTN.

    Поиск гомологов RIR1_ECOLI Геном Xanthomonas campestris
    Число находок с Е-value<0,001 1
    Характеристика лучшей находки:  
      E-value находки 9e-62
      AC соответствующей записи EMBL AE012519
      координаты выравнивания в записи EMBL 3456-1339
      Координаты CDS в записи EMBL complement(1303..3786)
      AC UniProt в записи EMBL Q8P3T3
     Геномы Salmonella typhimurium, Xanthomonas campestris, Pasteurella multocida
     E-value лучшей находки предыдущего поиска2e-61
    Общее число находок с Е-value<0,0014

    Выравнивание последовательности RIR1_Ecoli с единственной находкой из генома Xanthomonas campestris имеет очень низкий E-value, поэтому с низкой вероятностью ошибки можно сказать, что данная находка является гомологом моего белка. При поиске гомологов RIR1_Ecoli в трех геномах эта находка имеет E-value уже на порядок выше. Сам факт увеличения E-value связан с расширением диапазона поиска. Однако увеличение E-value c 9e-62 до 2e-61, при расширении диапазона поиска примерно в три раза, не дает повода усомниться в том, что эта находка - гомолог моего белка.

  5. Поиск гомологов с помощью программы BLASTN
  6. Имея ген, кодирующий RIR1_Ecoli, в геномах данных трех бактерий были найдены гомологи моего белка. E-value лучшей находки - 0.0. Ниже приведено соответствующее выравнивание.
    
    >AE008802 AE006468 |AE008802| Salmonella typhimurium LT2, section 106 of 220 of the complete genome.
              
     Length = 23759
    
     Score = 2169 bits (1094), Expect = 0.0
     Identities = 1988/2286 (86%)
     Strand = Plus / Plus
    
    
    Query: 1    atgaatcagaatctgctggtgacaaagcgcgacggtagcacagagcgcatcaatctcgac 60
                |||||||||| |||||||||||||||||| |||||  | || ||||||||||||||||||
    Sbjct: 4784 atgaatcagagtctgctggtgacaaagcgtgacggccgtactgagcgcatcaatctcgac 4843
    
    
    Query: 61   aaaatccatcgcgttctggattgggcggcagaaggactgcataacgtttcgatttcccag 120
                ||||| |||||||| || ||||||||||||||||||||| ||||||| ||| |||| |||
    Sbjct: 4844 aaaattcatcgcgtgcttgattgggcggcagaaggactgaataacgtatcggtttctcag 4903
    
    
    Query: 121  gtcgagctgcgctcccacattcagttttatgacggtatcaagacctctgacatccacgaa 180
                |||||||| ||||| || |||||||||||||| || || |||||||| || ||||| |||
    Sbjct: 4904 gtcgagctacgctcgcatattcagttttatgatgggattaagacctccgatatccatgaa 4963
    
    
    Query: 181  accattatcaaggctgccgcagacctgatctcccgtgatgcgccggattatcagtatctc 240
                || ||||| ||||||||||||||||||||||| || ||||||||||||||||| || ||
    Sbjct: 4964 actattattaaggctgccgcagacctgatctctcgcgatgcgccggattatcaatacctg 5023
    
    
    Query: 241  gccgcgcgcctggcgatcttccacctgcgtaaaaaagcctacggccagtttgagccgcct 300
                || ||||| |||||||| |||||||||||||| ||||||| ||||||||||||||||||
    Sbjct: 5024 gctgcgcgtctggcgattttccacctgcgtaagaaagccttcggccagtttgagccgccc 5083
    
    
    Query: 301  gcgctgtacgaccacgtggtgaaaatggtcgagatgggcaaatacgataatcatctgctg 360
                || || ||| |||| ||||| |||||||| ||| | ||||||||||| ||||||||||||
    Sbjct: 5084 gcactttaccaccatgtggtaaaaatggttgagcttggcaaatacgacaatcatctgctg 5143
    
    
    Query: 361  gaagactacacggaagaagagttcaagcagatggacacctttatcgatcacgaccgtgat 420
                |||||||||||||||||||||||||||||||||||  | ||||||| |||||| || |||
    Sbjct: 5144 gaagactacacggaagaagagttcaagcagatggattcgtttatcgttcacgatcgcgat 5203
    
    
    Query: 421  atgaccttctcttatgctgccgttaagcagctggaaggcaaatatctggtacagaaccgc 480
                ||||||||||| || ||||||||||||||||||||||| ||||||||||| || ||||||
    Sbjct: 5204 atgaccttctcctacgctgccgttaagcagctggaagggaaatatctggtgcaaaaccgc 5263
    
    
    Query: 481  gtgaccggcgaaatctatgagagcgcccagttcctttatattctagttgccgcgtgcttg 540
                |||||||||||||||||||| ||||| |||||||| || ||||| || || || ||| ||
    Sbjct: 5264 gtgaccggcgaaatctatgaaagcgcacagttcctctacattctggtagcggcctgcctg 5323
    
    
    Query: 541  ttctcgaactacccgcgtgaaacgcgcctgcaatatgtgaagcgtttttacgacgcggtt 600
                |||||||||||||||||||||||||| ||  | ||||| || ||||||||||| |||||
    Sbjct: 5324 ttctcgaactacccgcgtgaaacgcgtcttgactatgtaaaacgtttttacgatgcggtc 5383
    
    
    Query: 601  tccacatttaaaatttcgctgccgacgccaatcatgtccggcgtgcgtaccccgactcgt 660
                || || || |||||||||||||||||||| ||||||||||| ||||||||||| || |||
    Sbjct: 5384 tctacgttcaaaatttcgctgccgacgcccatcatgtccggtgtgcgtaccccaacccgt 5443
    
    
    Query: 661  cagttcagctcctgcgtactgatcgagtgcggtgacagcctggattccatcaacgccacc 720
                ||||||||||||||||||||||||||||| || ||||| |||||||||||||||||||||
    Sbjct: 5444 cagttcagctcctgcgtactgatcgagtgtggcgacagtctggattccatcaacgccacc 5503
    
    
    Query: 721  tccagcgcgattgttaaatacgtttcccagcgtgccgggatcggcatcaacgccgggcgt 780
                |||||||||||||| ||||||||||| ||||| ||||| ||||| |||||||| || ||
    Sbjct: 5504 tccagcgcgattgtgaaatacgtttctcagcgcgccggtatcggtatcaacgctggccgc 5563
    
    
    Query: 781  attcgtgcgctgggtagcccgattcgcggtggtgaagcgttccataccggctgcattccg 840
                |||||||||||||| ||||||||||| || || ||||| ||||| ||||||||||| |||
    Sbjct: 5564 attcgtgcgctgggcagcccgattcgtggcggcgaagccttccacaccggctgcatcccg 5623
    
    
    Query: 841  ttctacaaacatttccagacagcggtgaaatcctgctctcagggcggtgtgcgcggcggt 900
                |||||||| || |||||||| |||||||||||||| || |||||||| |||||||||||
    Sbjct: 5624 ttctacaagcacttccagacggcggtgaaatcctgttcgcagggcggcgtgcgcggcggc 5683
    
    
    Query: 901  gcggcaacgctgttctacccgatgtggcatctggaagtggaaagcctgctggtgttgaaa 960
                |||||||| || |||||||||||||||||||||||||||||||||||||||||| |||||
    Sbjct: 5684 gcggcaaccctcttctacccgatgtggcatctggaagtggaaagcctgctggtgctgaaa 5743
    
    
    Query: 961  aacaaccgtggtgtggaaggcaaccgcgtgcgtcatatggactacggggtacaaatcaac 1020
                |||||||| || ||||||||||||||||| ||||| ||||||||||| ||||| ||||||
    Sbjct: 5744 aacaaccgcggcgtggaaggcaaccgcgtacgtcacatggactacggcgtacagatcaac 5803
    
    
    Query: 1021 aaactgatgtatacccgtctgctgaaaggtgaagatatcaccctgttcagcccgtccgac 1080
                ||||||||||||||||| |||||||| || |  || || || |||||||| ||||| ||
    Sbjct: 5804 aaactgatgtatacccgcctgctgaagggcggcgacattacgctgttcagtccgtcggat 5863
    
    
    Query: 1081 gtaccggggctgtacgacgcgttcttcgccgatcaggaagagtttgaacgtctgtatacc 1140
                ||||| ||||| ||||| |||||||||||||| ||||| || || ||||| |||||
    Sbjct: 5864 gtacccgggctatacgatgcgttcttcgccgaccaggacgaattcgaacgcctgtacgtg 5923
    
    
    Query: 1141 aaatatgagaaagacgacagcatccgcaagcagcgtgtgaaagccgttgagctgttctcg 1200
                ||||||||  | ||||||||||||||||| |||||||||||||| || || |||||||||
    Sbjct: 5924 aaatatgaacacgacgacagcatccgcaaacagcgtgtgaaagcggtcgaactgttctcg 5983
    
    
    Query: 1201 ctgatgatgcaggaacgtgcgtctaccggtcgtatctatattcagaacgttgaccactgc 1260
                ||||||||||||||||| || |||||||||||||||||||| ||||||||||||||||||
    Sbjct: 5984 ctgatgatgcaggaacgcgcctctaccggtcgtatctatatccagaacgttgaccactgc 6043
    
    
    Query: 1261 aatacccatagcccgtttgatccggccatcgcgccagtgcgtcagtctaacctgtgcctg 1320
                ||||| || || ||||| |||||||   |||| || || || |||||||||||||| |||
    Sbjct: 6044 aatactcacagtccgttcgatccggttgtcgccccggtacgccagtctaacctgtgtctg 6103
    
    
    Query: 1321 gagatagccctgccgaccaaaccgctgaacgacgtcaacgacgagaacggtgaaatcgcg 1380
                ||||| |||||||||||||||||||||||||| |||||||| || ||||| ||||| |||
    Sbjct: 6104 gagattgccctgccgaccaaaccgctgaacgatgtcaacgatgaaaacggcgaaattgcg 6163
    
    
    Query: 1381 ctgtgtacgctgtctgctttcaacctgggcgcaattaataacctggatgaactggaagag 1440
                 |||||||||||||||| |||||| |||| || ||||| |  ||||| || ||||||||
    Sbjct: 6164 ttgtgtacgctgtctgcattcaacttgggtgccattaaaactctggacgagctggaagaa 6223
    
    
    Query: 1441 ctggcaattctggcggttcgtgcacttgacgcgctgctggattatcaggattacccgatc 1500
                ||||| |||||||| || || ||  | || || ||||| ||||||||||||||||||||
    Sbjct: 6224 ctggctattctggcagtacgcgctttggatgctctgctcgattatcaggattacccgatt 6283
    
    
    Query: 1501 ccggccgccaaacgtggagcgatgggtcgtcgtacgctgggtattggtgtgatcaacttc 1560
                ||||| |||||||| || || ||||| |||||||||||||| ||||| ||||| ||||||
    Sbjct: 6284 ccggctgccaaacgcggcgcaatgggccgtcgtacgctgggcattggcgtgattaacttc 6343
    
    
    Query: 1561 gcttactacctggcgaagcacggtaaacgctactccgacggcagcgccaacaacctgacg 1620
                || ||||  ||||||||  ||||||| || || ||||||||||||||||| || ||||||
    Sbjct: 6344 gcctactggctggcgaaaaacggtaagcgttattccgacggcagcgccaataatctgacg 6403
    
    
    Query: 1621 cataaaaccttcgaagccattcagtattacctgctgaaagcctctaatgagctggcgaaa 1680
                |||||||||||||||||||||||||| || ||||| ||||| || || || |||||||||
    Sbjct: 6404 cataaaaccttcgaagccattcagtactatctgcttaaagcgtccaacgaactggcgaaa 6463
    
    
    Query: 1681 gagcaaggcgcgtgcccgtggtttaacgaaaccacttacgcgaaagggatcctgccgatc 1740
                ||||||||||| ||||| ||||| ||||||||||| || || ||||| ||  ||||||||
    Sbjct: 6464 gagcaaggcgcctgcccatggttcaacgaaaccacctatgcaaaaggcattttgccgatc 6523
    
    
    Query: 1741 gatacctataagaaagatctggataccatcgctaatgagccgctgcattacgactgggaa 1800
                || ||||| || |||||||||||| | || |  || || |||||||| ||||||||||||
    Sbjct: 6524 gacacctacaaaaaagatctggatgcgattgtcaacgaaccgctgcactacgactgggaa 6583
    
    
    Query: 1801 gctctgcgtgagtcaatcaaaacgcacggtctgcgtaactccacgctttctgctctgatg 1860
                   ||||||||||| |||||||| ||||||||||||||||||||||| || || || |||
    Sbjct: 6584 cagctgcgtgagtcgatcaaaacccacggtctgcgtaactccacgctatcggcgctaatg 6643
    
    
    Query: 1861 ccgtccgagacttcttcgcagatctctaacgccactaacggtattgaaccgccgcgcggt 1920
                ||||| || || || || |||||||| |||||||| ||||| ||||| |||||||||||
    Sbjct: 6644 ccgtcggaaacgtcgtcccagatctccaacgccaccaacggcattgagccgccgcgcggc 6703
    
    
    Query: 1921 tacgtcagcatcaaagcgtcgaaagacggtattttgcgccaggtggtgccggactacgag 1980
                |||||||||||||| || |||||||||||||||||||| ||||| |||||||| || |||
    Sbjct: 6704 tacgtcagcatcaaggcctcgaaagacggtattttgcgtcaggtcgtgccggattatgag 6763
    
    
    Query: 1981 cacctgcacgacgcctatgagctgctgtgggaaatgccgggtaacgatggttatctgcaa 2040
                || ||| | ||||| || || ||| ||||||| ||||||   ||||| ||||||||||||
    Sbjct: 6764 catctgaaagacgcttacgaactgttgtgggagatgccgaacaacgacggttatctgcaa 6823
    
    
    Query: 2041 ctggtgggtatcatgcagaaatttatcgatcagtcgatctctgccaacaccaactacgat 2100
                |||||||||||||||||||| ||||||||||||||||| || ||||| ||||||||||||
    Sbjct: 6824 ctggtgggtatcatgcagaagtttatcgatcagtcgatttccgccaataccaactacgat 6883
    
    
    Query: 2101 ccgtcacgcttcccgtcaggaaaagtgccgatgcagcagttgctgaaagacctgctcacc 2160
                |||||||| |||||||||||||||||||||||||||||  ||||||||||  ||||||||
    Sbjct: 6884 ccgtcacgtttcccgtcaggaaaagtgccgatgcagcaactgctgaaagatttgctcacc 6943
    
    
    Query: 2161 gcctacaaattcggggtcaaaacactgtattatcagaacacccgtgacggcgctgaagac 2220
                || || || || || || ||||| ||||| ||||| || ||||| |||||||| |||||
    Sbjct: 6944 gcgtataagtttggcgtgaaaactctgtactatcaaaatacccgcgacggcgcggaagat 7003
    
    
    Query: 2221 gcacaagacgatctggtgccgtcaatccaggacgatggctgcgaaagcggcgcatgtaag 2280
                || || |||||| ||| ||| || || |||||||||||||||||||||||||| ||||||
    Sbjct: 7004 gcgcaggacgatttggcgccttctattcaggacgatggctgcgaaagcggcgcttgtaag 7063
    
    
    Query: 2281 atctga 2286
                ||||||
    Sbjct: 7064 atctga 7069
    
    
    Программа BLASTN нашла только двух гомологов из тех 4, которых нашла TBLASTN. Программа TBLASTX, на вход которой были поданы те же параметры, что и BLASTN, вновь нашла 4 гомолога с E-value<0,001.
    Также стоит отметить, что значения E-value для одних и тех выравниваний существенно отличаются с использованием разных программ. Например, при использовании TBLASTN и TBALSTX одно из выравниваний (AE006109) имело E-value 0.0, однако оно же имело E-value 2e-12 при использовании программы BLASTN. Различные E-value могут давать и программы TBLASTN и TBLASTX. Так выравнивание с последовательностью AE012519 имело E-value 2e-61 при использовании TBLASTN и 9e-46 при использовании TBLASTX. Такая разница объясняется тем, что TBLASTN прогоняет последовательность 6 раз, а TBALSTX 36 раз, что существенно увеличивает диапозон поиска.

Вернутся к списку протоколов


©:Сорокин Максим