Программы пакета BLAST


На главную Назад
Поиск в геноме участков, кодирующих белки, похожие на заданный
Заданный мне белок - PYRC_ECOLI (P05020), нужно определить закодированы ли похожие белки в геноме Salmonella typhimurium.
Спомощью команды formatdb -i st_genome.fasta -p F -n st были созданы индексные файлы пакета BLAST, необходимые для поиска.
Далее, спомощью программы blastall был получен выходной файл, содержащий результаты поиска,
поиск проводился в TBLASTN, на вход был подан файл с последовательностью белка (pyrc_ecoli)
По результатам была составлена таблица:

Поиск гомологов белка PYRC_ECOLI в геноме Salmonella typhimurium

Число находок с E-value < 0,001

1

E-value лучшей находки

0.0

Название последовательности с лучшей находкой

AE008750 AE006468 Salmonella typhimurium LT2 section 54 of 220
of the complete genome.

Координаты лучшей находки

13349 - 12306

Процент последовательности белка,
вошедшей в выравнивание с лучшей находкой

86%



Спомощью команды seqret -sask вырежем полученную нуклеотидную последовательность в файл ae008750.fasta.
Найдем информацию об этой последовательности на сайте EBI.
Отсюда можно сразу определить AC записи - AE006468, координаты - 1249561-1248542.

Рассмотрим поля FT записи:
FT   CDS             complement(1248515..1249561)
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="pyrC"
FT                   /locus_tag="STM1163"
FT                   /product="dihydro-orotase"
FT                   /EC_number="3.5.2.3"
FT                   /note="dihydroorotase. (SW:PYRC_SALTY)"
FT                   /db_xref="GOA:P06204"
FT                   /db_xref="InterPro:IPR002195"
FT                   /db_xref="InterPro:IPR004721"
FT                   /db_xref="InterPro:IPR006680"
FT                   /db_xref="PDB:3JZE"
FT                   /db_xref="UniProtKB/Swiss-Prot:P06204"
FT                   /protein_id="AAL20093.1"
FT                   /translation="MTAPSQVLKIRRPDDWHVHLRDGDMLKTVVPYTSEIYGRAIVMPN
FT                   LASPITTVDAAIAYRQRILDAVPAGHDFTPLMTCYLTDSLDADELERGFHEGVFTAAKL
FT                   YPANATTNSSHGVTSVDAIMPVLERMEKLGIPLLVHGEVTHADVDIFDREARFIDTVME
FT                   PLRQRLTALKVVFEHITTKDAAQYVRDGNDYLAATITPQHLMFNRNDMLVGGIRPHLYC
FT                   LPILKRNIHQQALRELVASGFTRAFLGTDSAPHSRHRKETSCGCAGCFNAPSALGSYAA
FT                   VFEEMNALAHFEAFCSLNGPQFYGLPMNTGWVELVRDEQQIPGNIALADDSLVPFLAGE
FT                   TVRWSVKK"

Как видно участок является кодирующей последовательности (CDS) на комплементарной цепи, координаты 1248515-1249561.
Закодированный белок принадлежит к тому же семейству Dihydroorotase, к которому принадлежит белок в подаваемой на вход роследовательности.
Идентификатор белка -P06204, идентификатор PDB -3JZE, также, ниже приведена его аминокислотная последовательность.

Поиск гомологов спомощью программы BLASTN
Задача, по сути обратная. Найдем ссылку белка на файл EMBL -AP009048, в ней найдем номера позиций -1123138-1124184. Добудем последовательность, кодирующую белок.
Найдем гомологов полученной последовательности в геноме Salmonella typhimurium (в банке st), для этого опять же воспользуемся blastall:
blastall -p blastn -d st -i ap009048.fasta -o blastn.txt
Получим врезультате файл, с выравниваниями последовательностями blastn.txt
По результатам составим таблицу:

Число находок с E-value < 0,001

1

E-value лучшей находки

e-138

Название последовательности с лучшей находкой

AE008750 AE006468 Salmonella typhimurium LT2,
section 54 of 220 of the complete genome.

Координаты лучшей находки

13349 - 12436

Процент последовательности белка,
вошедшей в выравнивание с лучшей находкой

81%

Результаты оказались почти одинаковыми.
©Базылев Сергей, 2007