Standalone BLAST

Поиск в геноме участков, кодирующих белки, похожие на заданный

В этом задании попытаемся найти гомолог цитратсинтазы из сенной палочки в геноме Listeria monocytogenes, не используя при этом аннотацию генома. Будем задействовать алгоритм tblastn: поиск известной белковой последовательности в формальной трансляции нуклеотидного банка данных.

Поиск гомологов некодирующих последовательностей программой BLASTN

В этом задании мне предстоит, имея файл с последовательностями всех тРНК из генома сенной палочки, узнать сколько гомологов находится в геноме Listeria monocytogenes для этих последовательностей.

Поиск гомологов при изменённых параметрах программы BLASTN

Теперь запустим программу blastn ещё дважды, но на этот раз с изменёнными параметрами:
1) -reward 5 (бонус за одинаковый нуклеотид в выравнивании),-penalty -4 (штраф за mismatch), -gapopen 10 (штраф за открытие пропуска) -gapextend 6 (штраф за продолжение пропуска)
blastn -query trna_bacsu.fasta -db lm.fasta -evalue 0.01 -task blastn -outfmt 7 
-reward 5 -penalty -4 -gapopen 10 -gapextend 6 -out final2.txt
2) те же параметры, что и до этого, но с использованием минимальной длины "слова" для поиска (4 нуклеотида), -word_size 4
blastn -query trna_bacsu.fasta -db lm.fasta -evalue 0.01 -task blastn -outfmt 7 
-reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -out final3.txt
3) поиск со стандартными параметрами штрафов и бонусов, но минимальной длиной слова в 4 нуклеотида
blastn -query trna_bacsu.fasta -db lm.fasta -evalue 0.01 -task blastn -outfmt 7 
-word_size 4 -out final4.txt
Теперь ко всем трём полученным файлам применим написанный во втором задании скрипт и добавим новые результаты в таблицу Excel ССЫЛКА.

Анализ полученных результатов

Итак, при внесении изменений (как в штрафы, так и в длину слова), наблюдается увеличение суммарного числа найденных гомологов (Рис. 1). Особенно оно заметно при внесении в исходный запрос обоих описанных изменений.

Рис. 1 Зависимость количества находок команды BLAST от исходных параметров запроса.


Теперь выберем одну из записей для тРНК B. subtilis (BSn5_t20982 tRNA-Thr) и находку blast (embl|AL591974 43053-43108), которая получается при запросах №№ 1 и 2 (где изменены параметры для штрафов) и не находится при стандартных параметрах матрицы (исходный запрос и запрос №3). Вырежем гомологичный кусочек и командой seqret, проведём выравнивание с помощью needle.

Результаты:
1) Выравнивание и его характеристики, приводимые в выдаче blast:
Score = 33.0 bits (124),  Expect = 0.005
Identities = 40/56 (71%), Gaps = 1/56 (2%)

Query  8      TAGCTCAGCA-GGTAGAGCACTTCCATGGTAAGGAAGAGGTCAGCGGTTCGAGCCC  62
	      |||||||||  ||||||||||||   | |  |  ||| ||||   |||||||  ||
Sbjct  43053  TAGCTCAGCTTGGTAGAGCACTTGGTTTGGGACCAAGGGGTCGCAGGTTCGAATCC  43108
		
2) Полученное с помощью команды needle выравнивание и его характеристики:
Gap_penalty: 10.0, Extend_penalty: 0.5
Identity:      42/68 (61.8%)
Similarity:    42/68 (61.8%)
Gaps:          20/68 (29.4%)

Query    1 gcttccatagctcagc-aggtagagcacttccatggtaagg----aagag  45
		  ||||||||| .|||||||||||    ||||..||    |||.|
Sbjct    1 -------TAGCTCAGCTTGGTAGAGCACT----TGGTTTGGGACCAAGGG  39

Query    46 gtcagc-ggttcgagc--  60
	    ||| || |||||||..  
Sbjct    40 GTC-GCAGGTTCGAATCC  56
			
Из полученных данных видно, что выравнивания blast и needle схожи как визуально, так и по большинству параметров. Если же посмотреть аннотацию этого участка в геноме L.monocytogenes, то можно увидеть, что именно в этих границах закодирована тРНК, но не треониновая, как мы искали, а пролиновая. Это может говорить о том, что "при смягчении" параметров поиска (изменение стоимости штрафов и бонусов) в выдаче находятся гомологи - тоже гены тРНК, но при этом не того типа, что в запросе. Именно, на них, вероятно можно списать увеличение числа находок blast в запросах 1,2.

Время работы программы BLAST

Проанализируем время, затрачиваемое программой на тот или иной запрос:
Результаты работы команды time:
Нетрудно заметить, что внесение изменений в параметры матрицы не сильно отражается на быстродействии программы, в то время как уменьшение длины поискового "слова" сильно увеличивает время выполнения алгоритма (с менее чем одной секунды, до почти полуминут). Именно в связи с этим использование таких коротких слов возможно только в режиме standalone blast, в то время как в on-line версии длина слов ограничена большими значениями с целью снижения нагрузки на сервер.

Дата последнего обновления: 14.12.2013
© Dmitry Travin, 2013