Программы пакета BLAST для работы с нуклеотидными последовательностями
8.1 Поиск в геноме участков, кодирующих белки, похожие на заданный
С помощью программы tblastn пакета BLAST был произведен поиск гомологов белка YECD_ECOLI в геноме Salmonella typhimurium. Результаты поиска приведены в таблице.
Число находок с Е-value<0,001 |
1 |
Характеристика лучшей находки: |
|
|
E-value находки |
7e-89 |
Название геномной последовательности |
Salmonella typhimurium LT2, section 89 of 220 of the complete genome |
Координаты выравнивания в найденной последовательности |
195 - 758 |
8.2 Нахождение записи EMBL по последовательности с помощью программы BLASTN
Для нахождения записи EMBL по последовательности, найденой tblastn, с помощью blastn была использована реализация этой программы на сайте EBI (http://www.ebi.ac.uk/Tools/). Поиск был произведен по банку "EMBL standard prokaryote". Был найден участок генома бактерии Salmonella enterica subsp. enterica serovar Typhimurium str. LT2, описаный в записи AE006468 с координатами 1997208 - 1997771. Он описан в записи как ген yecD, с координатами 1997208 - 1997774. Продукт этого гена, вероятно, изохоризматаза ("putative isochorismatase"), сходная с гипотетическим белком E.coli AAC74937.1 (одна из записей EMBL, описывающих YECD_ECOLI).(участок поля FT записи с информацией о yecD)
8.3 Поиск гомологов с помощью программы BLASTN
С помощью программы blastn был произведен поиск гомологов белка YECD_ECOLI в геноме Salmonella typhimurium. Результаты поиска приведены в таблице.
Число находок с Е-value<0,001 |
1 |
Характеристика лучшей находки: |
|
|
E-value находки |
3e-15 |
Название геномной последовательности |
Salmonella typhimurium LT2, section 89 of 220 of the complete genome |
Координаты выравнивания в найденной последовательности |
495 - 674 |
Blastn нашел участок генома, содержащийся в находке tblastn для того же белка (YECD_ECOLI). Этот учаток короче найденного tblastn больше, чем на 300 нуклеотидов. Таким образом tblastn в данном случае было гораздо целесообразней использовать для поиска гомологов, чем blastn.
9.1 Работа с программой getorf пакета EMBOSS
Чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода нужно запустить команду:
getorf -sequence d89965.entret -table 11 -find 1 -minsize 30
-sequence - входной файл
-table - используемый код (11 - bacterial)
-find - тип рамки (1 - от старт-кодона до стоп-кодона)
-minsize - минимальная длина открытой рамки (в нуклеотидах).
Из 13 найденых рамок, 5-я рамка содержала аминокислотную последовательность, описанную в записи D89965 в СDS. 13-я - содержится в соответствующей записи Swiss-Prot (P0A7B8).
9.2 Поиск некодирующих последовательностей программой BLASTN
Для того, чтобы определить, сколько гомологов каждой из тРНК E.coli находит программа BLASTN в геномe бактерии Salmonella typhimurium было проделано следующее:
-
Запустил программу Blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — геном бактерии, с табличным формат выдачи -m 9.
-
Создал колонку из названий входных последовательностей командой grep ">" trna_ecoli.fasta
-
Создал скрипт из команд, выдающих число находок для каждой последовательности. (script)
Потом сделал тоже самое для E-value<0.001. Результат импортировал в Excel. (trna.xls)
9.3 Поиск некодирующих последовательностей программой megablast
Был произведен поиск программами megablast и discontigous megablast, аналогичный 9.2 с теми же индексными файлами. Для этого были выполнены команды:
megablast -D 2 -m 9 -o trnaMega.out -d stg -i trna_ecoli.fasta
megablast -D 2 -m 9 -W 11 -t 16 -N 1 -o trnaDM.out -d stg -i trna_ecoli.fasta
-D - определяет вид выходных файлов (2 - стандартный для программ пакета BLAST)
-W 11 -t 16 -N 1 - определяют одну из форм запуска discontigous megablast с длиной слов 11, по некодирующей части генома.
-o -d -i - тоже самое, что и для blastall (выходной файл, имя индексных файлов и входной файл соответственно)
Далее с помощью скриптов (megablast и discontigous megablast) было подсчитано число находок. Данные экспортировались в Excel. (trna.xls)
9.4 Анализ результатов
Обычно, число находок megablast меньше числа находок blastn, это объясняется тем, что blastn ищет слова длины 11, а megablast - 28. Например blastn нашел вероятно гомологичную последовательность AE008893 [17544:17565], а megablast - нет. Длина находки - 22 нуклеотида, а длина "слова" megablast - 28, а полностью идентичного участка длины 28 нуклеотидов, соответствующего участку из генома E.coli, содержащего этот фрагмент не нашлось. На этом же участке сходство этих последовательностей 100% (с помощью программы Needle было построено выравнивание этих участков): файл
AE008893 1 ---gatatagctcagttggtagagc------------------------- 22
||||||||||||||||||||||
thrW_ecoli 1 gccgatatagctcagttggtagagcagcgcattcgtaatgcgaaggtcgt 50
AE008893 22 -------------------------- 22
thrW_ecoli 51 aggttcgactcctattatcggcacca 76
Аннотация гена Salmonella typhimurium, содержащего найденый участок: файл
FT gene 368806..368878
FT /gene="thrW"
FT /locus_tag="STM0323"
FT tRNA 368806..368878
FT /gene="thrW"
FT /locus_tag="STM0323"
FT /product="tRNA-Thr"
2009
©