Программы пакета BLAST для работы с нуклеотидными последовательностями
Поиск в геноме участков, кодирующих белки, похожие на заданный
Заданным белком является белок из Escherichia coli K-12 с
известной аминокислотной последовательностью.
Требовалось определить, закодированы ли похожие белки в геноме
организма Pasteurella multocida.
Сперва в рабочей директории создавались индексные файлы пакета BLAST для поиска
по заданному геному.
(formatdb -i pm_genome.fasta -p F -n pm)
Далее через Putty запускалась программа TBLASTN из пакета
BLAST так, чтобы поиск велся с порогом на E-value 0,001.
(blastall -p tblastn -d pm -i iscs_ecoli.fasta -o output.txt -e 0.001)
Результат выполнения данной команды находится, соответственно, в файле
output.txt. В общем, он характеризуется
следующими данными:
Поиск гомологов белка iscs_ecoli в геноме бактерии Pasteurella multocida
Число находок с Е-value<0,001 |
2 |
Характеристика лучшей находки: |
|
|
E-value находки |
0.0 |
AC соответствующей записи EMBL |
AE006068 |
Координаты выравнивания в записи EMBL |
582 - 1793 |
Координаты CDS в записи EMBL |
582 - 1796 |
Аналогичный поиск сразу в нескольких геномах
Теперь такой же поиск ведется одновременно по трем геномам:
как и в предыдущем упражнении, по полному геному бактерии Pasteurella multocida,
а также по геномам Salmonella typhimurium и Xanthomonas campestris.
Результат поиска представляет собой файл output_all.txt
Можно отметить некоторые различия между результатами, полученными в этом
и в предыдущем упражнениях.
В предыдущем упражнении было всего 2 находки с E-value меньше 0,001.
Лучшая из них, с AC AE006068 в EMBL, имела E-value 0.0 и Score 659.
Поиск в нескольких геномах выдал 11 находок, среди которых присутствует
AE006068 с теми же значениями E-value и Score. Однако в этом
случае она не является лучшей: находка с AC AE006468 имеет значение
Score 757.
Оба эти варианта поиска обнаружили и ген AE006126, принадлежащий,
естественно, бактерии Pasteurella multocida. И для него отличается значение
E-value, выданное программой в двух упражнениях. В первом случае, когда поиск велся только
по геному этой бактерии, оно было равно 8e-23, тогда как при втором поиске
увеличивается до 4e-22.
Поиск гомологов с помощью программы BLASTN
Для выполнения упражнения сначала нужно было получить fasta-файл с
последовательностью из генома E.coli, кодирующей белок.
Для этого в записи Swiss-Prot искали ссылки на банк EMBL, по данному номеру
получали соответствующую запись EMBL, в ней находили нужное CDS и оттуда
брали координаты участка для вырезания. Вырезался участок программой seqret,
в результате чего была получена следующая
нуклеотидная последовательность, которая кодирует определенную аминокислотную.
Мы искали гомологов гена iscs_ecoli в геномах трех бактерий при помощи
программы BLASTN. На вход программе подавалась нуклеотидная
последовательность
соответствующего гена. В результате BLASTN выдал
следующий файл (без ограничения E-value) и
другой, со значением E-value меньше 0.001.
Лучшая находка такого поиска имеет значение E-value, равное 0.0 и Score - 1378.
Эти показатели значительно отличаются от показателей всех последующих находок:
Score второй из них составляет всего 74. Это, по-видимому, говорит о том, что
фактически был найден 1 ген, гомологичный заданному.
Рассмотрим соответствующее выравнивание:
Query: 1 atgaaattaccgatttatctcgactactccgcaaccacgccggtggacccgcgtgttgcc 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 17399 atgaaattaccgatttatctcgactactccgcaaccacgccggtggacccgcgtgttgcc 17340
Query: 61 gagaaaatgatgcagtttatgacgatggacggaacctttggtaacccggcctcccgttct 120
|||||||||||||||||| |||| |||||||||||||||| |||||||| || |||||
Sbjct: 17339 gagaaaatgatgcagtttctgaccctggacggaacctttgggaacccggcgtctcgttca 17280
Query: 121 caccgtttcggctggcaggctgaagaagcggtagatatcgcccgtaatcagattgccgat 180
||||||||||||||||||||||||||||| || ||||||||||| || |||||||| ||
Sbjct: 17279 caccgtttcggctggcaggctgaagaagccgtcgatatcgcccgcaaccagattgctgaa 17220
Query: 181 ctggtcggcgctgatccgcgtgaaatcgtctttacctctggtgcaaccgaatctgacaac 240
||||||||||| || ||||||||||||||||||||||| || || || || ||||| |||
Sbjct: 17219 ctggtcggcgccgacccgcgtgaaatcgtctttacctcaggggcgacggagtctgataac 17160
Query: 241 ctggcgatcaaaggtgcagccaacttttatcagaaaaaaggcaagcacatcatcaccagc 300
|||||||| ||||| || ||||||||||||||||||||||||||||||||||||||||||
Sbjct: 17159 ctggcgattaaaggcgctgccaacttttatcagaaaaaaggcaagcacatcatcaccagc 17100
Query: 301 aaaaccgaacacaaagcggtactggatacctgccgtcagctggagcgcgaaggttttgaa 360
|| ||||| ||||||||||| ||||| |||||||||||||| ||||||||||| ||||||
Sbjct: 17099 aagaccgagcacaaagcggtgctggacacctgccgtcagcttgagcgcgaagggtttgaa 17040
Query: 361 gtcacctacctggcaccgcagcgtaacggcattatcgacctgaaagaacttgaagcagcg 420
|| ||||||||||| |||||||| |||||||| ||||| || || || || |||||||||
Sbjct: 17039 gtgacctacctggcgccgcagcgcaacggcatcatcgatctcaacgagctcgaagcagcg 16980
Query: 421 atgcgtgacgacaccatcctcgtgtccatcatgcacgtaaataacgaaatcggcgtggtg 480
||||||||||||||||| || || |||||||||||||| || ||||||||||||||||||
Sbjct: 16979 atgcgtgacgacaccattctggtttccatcatgcacgtgaacaacgaaatcggcgtggtg 16920
Query: 481 caggatatcgcggctatcggcgaaatgtgccgtgctcgtggcattatctatcacgttgat 540
|||||||||||| | ||||||||||||||||| || || || || ||||| |||||||||
Sbjct: 16919 caggatatcgcgaccatcggcgaaatgtgccgcgcgcgcggtatcatctaccacgttgat 16860
Query: 541 gcaacccagagcgtgggtaaactgcctatcgacctgagccagttgaaagttgacctgatg 600
|| |||||||||||||| |||||||||||||| |||||||| ||||||| || ||||||
Sbjct: 16859 gccacccagagcgtgggcaaactgcctatcgatctgagccaactgaaagtggatctgatg 16800
Query: 601 tctttctccggtcacaaaatctatggcccgaaaggtatcggtgcgctgtatgtacgtcgt 660
|| ||||||||||| ||||| ||||| |||||||| || || ||||||||||| ||||||
Sbjct: 16799 tccttctccggtcataaaatttatggtccgaaaggcattggcgcgctgtatgtgcgtcgt 16740
Query: 661 aaaccgcgcgtacgcatcgaagcgcaaatgcacggcggcggtcacgagcgcggtatgcgt 720
|| ||||| | ||||| |||||||| ||||| |||||||| ||||| |||||||||||
Sbjct: 16739 aagccgcgtattcgcattgaagcgcagatgcatggcggcgggcacgaacgcggtatgcgc 16680
Query: 721 tccggcactctgcctgttcaccagatcgtcggaatgggcgaggcctatcgcatcgcaaaa 780
|| || ||||||||||| |||||||| ||||| |||||||| || || || ||||| |||
Sbjct: 16679 tctggtactctgcctgtccaccagattgtcggcatgggcgaagcttaccgtatcgcgaaa 16620
Query: 781 gaagagatggcgaccgagatggaacgtctgcgcggcctgcgtaaccgtctgtggaacggc 840
|||||||||| |||||| |||| ||||||||||| ||||||||||||||||||||||||
Sbjct: 16619 gaagagatggagaccgaaatggcccgtctgcgcggtctgcgtaaccgtctgtggaacggc 16560
Query: 841 atcaaagatatcgaagaagtttacctgaacggtgacctggaacacggtgcgccgaacatt 900
||||||||||| |||||||||||||||||||| ||||| || || || ||||| ||||||
Sbjct: 16559 atcaaagatattgaagaagtttacctgaacggcgaccttgagcagggcgcgccaaacatt 16500
Query: 901 ctcaacgtcagcttcaactacgttgaaggtgagtcgctgattatggcgctgaaagacctc 960
|||||||| ||||| |||||||||||||| ||||||||||| |||||||||||||||||
Sbjct: 16499 ctcaacgtgagctttaactacgttgaaggcgagtcgctgatcatggcgctgaaagacctg 16440
Query: 961 gcagtttcttcaggttccgcctgtacgtcagcaagcctcgaaccgtcctacgtgctgcgc 1020
|| || ||||| ||||||||||| || || || || || ||||||||||||||||||||
Sbjct: 16439 gcggtctcttccggttccgcctgcacctccgccagtctggaaccgtcctacgtgctgcgt 16380
Query: 1021 gcgctggggctgaacgacgagctggcacatagctctatccgtttctctttaggtcgtttt 1080
||| |||| |||| ||||| ||||| |||||||||||||||||||||||||||||||||
Sbjct: 16379 gcgttgggcatgaatgacgaactggcgcatagctctatccgtttctctttaggtcgtttt 16320
Query: 1081 actactgaagaagagatcgactacaccatcgagttagttcgtaaatccatcggtcgtctg 1140
|| |||||||||||||||||||||||||| || | |||||||||||||| || ||||||
Sbjct: 16319 accactgaagaagagatcgactacaccattgatctggttcgtaaatccattggccgtctg 16260
Query: 1141 cgtgacctttctccgctgtgggaaatgtacaagcagggcgtggatctgaacagcatcgaa 1200
|||||||||||||| ||||||||||||||||||||||| |||||||||||||||||||||
Sbjct: 16259 cgtgacctttctccactgtgggaaatgtacaagcagggtgtggatctgaacagcatcgaa 16200
Query: 1201 tgggctcatcattaa 1215
||||| |||||||||
Sbjct: 16199 tgggcacatcattaa 16185
Для него Identities составляет 89%, что является довольно неплохим показателем.
Исходная последовательность выровнена полностью: с 1 по 1215 нуклеотиды.
Последовательность Sbjct, соответственно, с 17399 по 16185.
Пользуясь этими данными, а также AC находки в EMBL (AE008815) можно найти
запись поля cds из документа банка EMBL, описывающую полученный фрагмент генома.
Выясняется, что последовательность представляет собой ген nifS,
кодирующий белок putative aminotransferase class-V со
следующей последовательностью.
В сравнении с результатами предыдущего упражнения (когда на вход программе
подавалась аминокислотная последовательность белка) находок в этом
упражнении (теперь на вход подается нуклеотидная
последовательность гена) при ограничении на E-value оказалось значительно
меньше - всего 2.
Они совпадают с первыми двумя находками поиска в предыдущем упражнении.
Для лучшей из них
- из бактерии Salmonella typhimurium LT2 - в двух случаях различаются значения
Score. При выравнивании нуклеотидных последовательностей заданного гена
и найденного гена этой бактерии процент идентичности равен 89%, совпадают 1085
из 1215 нуклеотидов. При выравнивании же соответствующих аминокислотных
последовательностей совпадают 381 из 404 аминокислотных остатков, что
соответствует 95% идентичности.
|