Программы пакета BLAST для работы с нуклеотидными последовательностями


1.Создание индексных файлов для работы с локальными версиями программ семейства BLAST

Для выполнения задания использовались три файла с геномами

С помощью программы formatdb были созданы индексные файлы, при этом использовались следующий параметры:
 
-i     файл, подаваемый на вход
-p     тип последовательности в файле (T - аминокислотная, F - нуклеотидная)
-n     первая часть файла с расширением (nhr, nin или nsq)
Для генома Xanthomonas campestris использовалась команда:
formatdb -i xc_genome.fasta -p F -n xc
Аналогично были сделаны индексные файлы для поиска по каждому из геномов.

2. Поиск в геноме участков, кодирующих белки, похожие на заданный

У нас есть аминокислотная последовательность белка SYD_ECOLI .
Нам нужно было выяснить, не закодированы ли похожие белки в неаннотированном геноме другого организма.
Для решения данной задачи я воспользовалась программой TBLASTN и провела с ее помощью поиск.
blastall -p tblastn -d xc -i SYD_ECOLI.fasta -o xcres.txt
Аналогичная работа была проведена и для других геномов.
Следующая таблица заполнена по результатам поиска:
Поиск гомологов SYD_ECOLI Геном Xanthomonas campestris Геном Salmonella typhimurium Геном Pasteurella multocida
Число находок с Е-value<0,001 3 4 4
Характеристика лучшей находки: Xanthomonas campestris pv. Campestris str. ATCC 33913, section 324 of 460 of the complete genome. Length = 12250 Score = 574 bits (1479), Expect = e-164 Identities = 299/528 (56%), Positives = 379/528 (71%), Gaps = 2/528 (0%) Frame = -1 Salmonella typhimurium LT2, section 88 of 220 of the complete genome. Length = 21506 Score = 1000 bits (2586), Expect = 0.0 Identities = 497/530 (93%), Positives = 513/530 (96%) Frame = -2 Pasteurella multocida subsp. multocida str. Pm70 section 104 of 204 of the complete genome. Length = 11496 Score = 837 bits (2163), Expect = 0.0 Identities = 411/525 (78%), Positives = 458/525 (87%) Frame = -1
     E-value находки e-164 0.0 0.0
  AC соответствующей записи EMBL AE012416 AE008784 AE006137
  координаты выравниваний
в записи EMBL
2569..1007 21136..19547 7182..5608
  Координаты CDS в записи EMBL (если они есть) complement(998..2764) complement(19544..21316) complement(5599..7365)
  AC UniProt в записи EMBL (если есть) Q8P6E0 Q8ZNV2 P57895
Результаты поиска по 3м генам вместе:
Характеристика лучшей находки: Salmonella typhimurium LT2, section 88 of 220 of the complete genome.
Length = 21506
Score = 1000 bits (2586)
Expect = 0.0
Identities = 497/530 (93%)
Positives = 513/530 (96%)
Frame = -2
Е-value лучшей находки 0.0
координаты выравниваний
в записи EMBL
21136..20285
AC соответствующей записи EMBL AE008784
Координаты CDS в записи EMBL (если они есть) complement(19544..21316)
AC UniProt в записи EMBL Q8ZNV2
Итого число находок с Е-value<0,001 в трех геномах: 11

Выводы при поиске по трем геномам отдельно:
При поиске по второму геному, проанализировав результаты, можно заметить, что координаты выравниваний и координаты кодирующих последовательностей белка в большей степени совпадают.Более того сравнив e-value выравниваний при поичке по геному Salmonella Typhimurium и по геному Pastereurella multocida e-value было равно нулю, то есть это свидетельствовало о их гомологичности к белку SYD_ECOLI, более того мы можем предположить, что наиболее близким гомологом был Salmonella typhimurium тк вес выравнивания у него больше.
Таким образом, мы убедились в том, что программа TBLASTN успешно проводит поиск гомологичных последовательностей.

3.Аналогичный поиск сразу в нескольких геномах

Для создания индексных файлов BLAST для поиска по всем трем геномам я воспользовалась следущей командой:
formatdb -i 'xc_genome.fasta st_genome.fasta pm_genome.fasta' -p F -n 3g
С помощью программы TBLASTN провела поиск по трем геномам.
blastall -p tblastn -d 3g -i SYD_ECOLI.fasta -o 3genres.txt
Последние строки таблицы были заполнены по результатам поиска.
Выводы при поиске по трем геномам сразу:
При поиске по трем геномам сразу число находок с Е-value<0,001 осталось прежним, более того, лучшие находки соответствуют лучшим находкам, сделанных при поиске по каждому геному отдельно; e-value каждой из находок, которая не была равна 0, увеличилось. Вероятнее всего, увеличение значения e-value произошло из-за увеличения банка поиска (количества последовательностей).

4.Поиск гомологов с помощью программы BLASTN


Использовался файл x53984.fasta с гeном белка SYD_ECOLI.

Был проведен поиск гомологов этого гена в трех геномах программой BLASTN.
blastall -p blastn -d 3g -i x53984.fasta -o SYD_ECOLI.txt
Salmonella typhimurium LT2, section 88 of 220 of the complete genome.
Length = 21506
Соответствующее выравнивание:
                                                                   
Query: 256   gatatggcgaccggcgaaatcgaagtgctggcgtcctcgctgactatcatcaaccgcgca 315
             |||||||||||||||||||| ||||||||||||||||| || ||||||||||||||||||
Sbjct: 21061 gatatggcgaccggcgaaattgaagtgctggcgtcctctctcactatcatcaaccgcgca 21002

                                                                         
Query: 316   gatgttctgccgcttgactctaaccacgtcaacaccgaagaagcgcgtctgaaataccgc 375
             ||    |||||||||||| |||||||||| || |||||||| |||||||| || ||||||
Sbjct: 21001 gactcactgccgcttgacgctaaccacgttaataccgaagaggcgcgtctcaagtaccgc 20942

                                                                         
Query: 376   tacctcgacctgcgtcgtccggaaatggctcagcgcctgaaaacccgcgctaaaatcacc 435
             || || ||  | ||||||||||||||||| |||||||||||||||||||| ||||| |||
Sbjct: 20941 tatctggatttacgtcgtccggaaatggcgcagcgcctgaaaacccgcgccaaaattacc 20882

                                                                         
Query: 436   agcctggtgcgccgttttatggatgaccacggcttcctcgacatcgaaactccgatgctg 495
             ||||||||||| ||||||||||| || ||||| ||||| || || ||||| |||||||||
Sbjct: 20881 agcctggtgcgtcgttttatggacgatcacggtttccttgatattgaaacgccgatgctg 20822

                                                                         
Query: 496   accaaagccacgccggaaggcgcgcgtgactacctggtgccttctcgtgtgcacaaaggt 555
             |||||||||||||||||||||||||| ||||| ||||||||||| || ||||||||||||
Sbjct: 20821 accaaagccacgccggaaggcgcgcgcgactatctggtgccttcgcgcgtgcacaaaggt 20762

                                                                         
Query: 556   aaattctacgcactgccgcaatccccgcagttgttcaaacagctgctgatgatgtccggt 615
             ||||||||||| |||||||| || |||||| ||||||||||||| |||||||||||||||
Sbjct: 20761 aaattctacgcgctgccgcagtcgccgcagctgttcaaacagctcctgatgatgtccggt 20702

                                                                         
Query: 616   tttgaccgttactatcagatcgttaaatgcttccgtgacgaagacctgcgtgctgaccgt 675
             || ||||||||||||||||| || |||||||||||||| |||||| | ||||||||||||
Sbjct: 20701 ttcgaccgttactatcagatagtcaaatgcttccgtgatgaagacttacgtgctgaccgt 20642

                                                                         
Query: 676   cagcctgaatttactcagatcgatgtggaaacttctttcatgaccgcgccgcaagtgcgt 735
             ||||| || |||||||||||||| || || || || |||||||||||||| || ||||| 
Sbjct: 20641 cagccggagtttactcagatcgacgtcgagacctccttcatgaccgcgccacaggtgcgc 20582

                                                                         
Query: 736   gaagtgatggaagcgctggtgcgtcatctgtggctggaagtgaagggtgtggatctgggc 795
             ||||||||||||||||||||||| ||| | |||||||||||||| || ||||||||||| 
Sbjct: 20581 gaagtgatggaagcgctggtgcgccatttatggctggaagtgaaaggcgtggatctgggg 20522

                                                                         
Query: 796   gatttcccggtaatgacctttgcggaagcagaacgccgttatggttctgataaaccggat 855
             ||||||||||| ||||| ||||| ||||| ||||| ||||| ||||| || ||||| || 
Sbjct: 20521 gatttcccggtcatgacgtttgccgaagcggaacgtcgttacggttccgacaaaccagac 20462

                                                                         
Query: 856   ctgcgtaacccgatggaactgactgacgttgctgatctgctgaaatctgttgagtttgct 915
             |||||||||||||||||||||   || || ||||| ||||||||||| || ||||| || 
Sbjct: 20461 ctgcgtaacccgatggaactggtagatgtcgctgacctgctgaaatcggtagagttcgcg 20402

                                                                         
Query: 916   gtatttgcaggtccggcgaacgatccgaaaggtcgcgtagcggctctgcgcgttccgggc 975
             || || || || ||||| |||||||||||||| ||||| || || ||||| || || |||
Sbjct: 20401 gtcttcgcgggcccggctaacgatccgaaaggccgcgtggcagcgctgcgtgtgcctggc 20342

                                                                         
Query: 976   ggcgcatcgctgacccgtaagcagatcgacgaatacggtaacttcgttaaaatctacggc 1035
             ||||||  ||| | |||||||||||||||||| ||||||||||| ||||| |||||||||
Sbjct: 20341 ggcgcacagcttagccgtaagcagatcgacgattacggtaactttgttaagatctacggc 20282

                                                                         
Query: 1036  gcgaaaggtctggcttacatcaaagttaacgaacgcgcgaaaggtctggaaggtatcaac 1095
             |||||||| ||||| || |||||||||||||| ||||||||||||||||| || || |||
Sbjct: 20281 gcgaaaggactggcgtatatcaaagttaacgagcgcgcgaaaggtctggacgggattaac 20222

                                                                         
Query: 1096  agcccggtagcgaagttccttaatgcagaaatcatcgaagacatcctggatcgtactgcc 1155
             || ||||| || |||||||| |  || || ||| |||| |  ||||| || ||||| | |
Sbjct: 20221 agtccggtggccaagttcctgaccgccgacatcgtcgaggctatccttgaacgtaccggc 20162

                                                                         
Query: 1156  gcgcaagatggcgatatgattttcttcggtgccgacaacaagaaaattgttgccgacgcg 1215
             ||||| || ||||| ||||| |||||||| || || ||||| ||| | |||||||| |||
Sbjct: 20161 gcgcaggacggcgacatgatcttcttcggcgcagataacaacaaagtggttgccgatgcg 20102

                                                                         
Query: 1216  atgggtgcactgcgcctgaaagtgggtaaagaccttggtctgaccgacgaaagcaaatgg 1275
              |||| || ||||| |||||| |||| ||||||||  | ||||||||||||  |||||||
Sbjct: 20101 ctgggcgcgctgcgtctgaaactgggcaaagacctgagcctgaccgacgaagacaaatgg 20042

                                                                         
Query: 1276  gcaccgctgtgggttatcgacttcccgatgtttgaagacgacggtgaaggcggcctgacg 1335
             || ||||||||||| || |||||||||||||| ||||||||||| |||||||| ||||| 
Sbjct: 20041 gcgccgctgtgggtgattgacttcccgatgttcgaagacgacggcgaaggcggtctgacc 19982

                                                                         
Query: 1336  gcaatgcaccatccgttcacctcaccgaaagatatgacggctgcagaactgaaagctgca 1395
             || |||||||||||||||||| | |||   || ||||||||  | ||||||||| |||| 
Sbjct: 19981 gcgatgcaccatccgttcaccgccccgcgtgacatgacggcgtctgaactgaaaactgcg 19922

                                                                         
Query: 1396  ccggaaaatgcggtggcgaacgcttacgatatggtcatcaatggttacgaagtgggcggt 1455
             ||||||   || || || ||||||||||||||||| || || || || ||||||||||| 
Sbjct: 19921 ccggaaggagccgtcgctaacgcttacgatatggtgattaacggctatgaagtgggcggc 19862

                                                                         
Query: 1456  ggttcagtacgtatccataatggtgatatgcagcagacggtgtttggtattctgggtatc 1515
             ||||| || ||||| || || ||||| |||||||| || || ||||||||||| ||||||
Sbjct: 19861 ggttcggtgcgtattcacaacggtgaaatgcagcaaaccgtatttggtattctcggtatc 19802

                                                                         
Query: 1516  aacgaagaggaacagcgcgagaaattcggcttcctgctcgacgctctgaaatacggtact 1575
             || ||  |||| ||||||||||| |||||||||||| | || ||  ||||||||||||| 
Sbjct: 19801 aatgagcaggagcagcgcgagaagttcggcttcctgttggatgcgttgaaatacggtacg 19742

                                                                         
Query: 1576  ccgccgcacgcaggtctggcattcggtcttgaccgtctgaccatgctgctgaccggcacc 1635
             ||||||||||| || ||||| || ||||| |||||||||||||||||| |||||||||||
Sbjct: 19741 ccgccgcacgcgggcctggcgtttggtctggaccgtctgaccatgctgttgaccggcacc 19682

                                                                         
Query: 1636  gacaatatccgtgacgttatcgccttcccgaaaaccacggcggcagcgtgtctgatgact 1695
             |||||||| ||||| |||||||||||||||||||| || || || |||||||||||||| 
Sbjct: 19681 gacaatattcgtgatgttatcgccttcccgaaaacgaccgccgccgcgtgtctgatgacc 19622

                                                                         
Query: 1696  gaagcaccgagctttgctaacccgactgcactggctgagctgagcattcaggttgtgaag 1755
             ||||| ||||| || || |||| | | ||  || | ||| || | |||||||||||||||
Sbjct: 19621 gaagcgccgagtttcgccaacctggcagcgttgacggagttgggtattcaggttgtgaag 19562

                               
Query: 1756  aaggctgagaataactga 1773
             || || ||||||||||||
Sbjct: 19561 aaagccgagaataactga 19544


Характеристики выравнивания:

Score = 1225 bits (618), Expect = 0.0
Identities = 1293/1518 (85%)

Итак, сравним две программы, которыми мы пользовались выше, а именно, BLASTN и TBLASTN.
Для начала проанализируем результаты. При поиске гомологов с помощью программы BLASTN сразу по трем геномам было найдено всего 3 находки с e-value, меньшим 0,001, при поиске программой TBLASTN опять же таки по трем геномам-11 находок.
Также можно заметить, что e-value лучшей находки из генома Salmonella typhimurium с помощью TBLASTN соответствует e-value в находке с помощью BLASTN и равно нулю эти результаты говорят нам о полнейшей индентичности данной находки к исходной.
В находке из генома Pasteurella multocida e-value в случае выравнивания по BLASTN равно 6e-24, а по TBLASTN 0.0,в находке из генома Xanthomonas campestris через TLASTN e-value равно e-164, а по BLASTN - 8e-11.
Важно заметить, что при увелечении банка поиска (из-за увелечения длин нуклеотидных последовательностей), вероятность случайного совпадения в нуклеотидной последовательности сильно возрастает, так как аминокислот в 5 раз больше чем нуклеотидов.
Более того, так как одна аминокислота кодируется несколькими кодонами,возникает вырожденность, а соответственно появляются и штрафы за несовпадение, то есть гэпы, в следствие чего уменьшается вес нуклеотидного выравнивания, в аминокислотном такого произойти не может.
То есть, как видно из вышеприведенных примеров, большее количество находит TBLASTN но при этом значения e-value не свидетельствуют о полнейшей идентичности, то есть точность поиска сходных последовательностей не так высока, в то же время BLASTN находит меньшее количество находок, однако, более близких к исходной, то есть те, котороые действительно можно назвать гомологами.
Непосредственно выбор программы основывается лишь на том, что нам нужно получить в конечном итоге.
Если надо найти просто всех гомологов, то лучше воспользоваться TBLASTN, если только самых близких то -BLASTN.
На главную
На страницу третьего семестра
©Вахрушева Анна Алексеевна