Программы пакета BLAST для работы с нуклеотидными последовательностями

Поиск в геноме участков, кодирующих белки, похожие на заданный

Надо определить, закодированы ли белки, похожие на RIDA_BACSU, в геноме Geobacillus theromdentrificans (GT), не пользуясь аннотацией генома, и найти такие белки. Для этого используем программу BLAST.
Вначале создадим необходимые индексные файлы BLAST+ для дальнейшего поиска по геному GT. Для этого используем команду makeblastdb с необходимыми параметрами:

makeblastdb -in gt_genome.fasta -out gt -dbtype nucl

Для выполнения задачи я выбрала программу tblastn.

tblastn -query rida_bacsu.fasta -db gt -out rida_gt -evalue 0.001

В выходном файле есть информация о ближайшем гомологе моего белка.

Число находок с E-value < 0.001	1
E-value лучшей находки	1e-54
Название последовательности с лечшей находкой	CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome
Координаты лучшей находки (от-до)	52089-52460
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой	100%

Нахождение записи EMBL по последовательности программой BLASTN

Следуя инструкциям из подсказок и воспользовавшись BLASTN на сайте EBI, я нашла данную мне последовательность в записях EMBL. Было найдено достаточно много записей со 100%-м совпадением. БОльшая часть из них представляют собой полные геномы различных штаммов одной и той же бактерии Salmonella enterica, где данный мне участок был одинаковым. Однако первой в списке результатов оказалась запись более маленького участка последовательности из организма Salmonella enterica subsp. enterica serovar Typhi. Это запись, включающая в себя последовательности двух генов - rcsB и rcsC - X87830. Координаты заданной последовательности в ней - 346 - 525, направление прямое (в полных геномах направление обратное).

>EM_PRO:X87830 X87830.1 S.typhi rcsB & rcsC genes
          Length = 1230

 Score =  357 bits (180), Expect = 4e-96
 Identities = 180/180 (100%)
 Strand = Plus / Plus

                                                                       
Query: 1   ggagataaatacggcgatgggatcaccttgatcaagtacatcaagcgtcattttccgagc 60
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 346 ggagataaatacggcgatgggatcaccttgatcaagtacatcaagcgtcattttccgagc 405

                                                                       
Query: 61  ctgtctattatcgttctgaccatgaacaacaatccggcgatcctgagcgccgtgttggat 120
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 406 ctgtctattatcgttctgaccatgaacaacaatccggcgatcctgagcgccgtgttggat 465

                                                                       
Query: 121 cttgatattgaagggatcgtactcaaacagggtgcgccaaccgatctgcctaaggcgctg 180
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 466 cttgatattgaagggatcgtactcaaacagggtgcgccaaccgatctgcctaaggcgctg 525

166-816 нуклеотиды этой записи составляют ген rscB, соответственно, туда попадает и искомая последовательность. Направление гена, естественно, также прямое.

CDS             166..816
                /transl_table=11
                /gene="rcsB"
                /product="RcsB protein"
                /db_xref="GOA:Q56127"
                /db_xref="InterPro:IPR000792"
                /db_xref="InterPro:IPR001789"
                /db_xref="InterPro:IPR011006"
                /db_xref="InterPro:IPR011991"
                /db_xref="InterPro:IPR016032"
                /db_xref="UniProtKB/Swiss-Prot:Q56127"
                /protein_id="CAA61094.1"
                /translation="MNNMNIIIADDHPIVLFGIRKSLEQIEWVNVVGEFEDSTALINNL
                PKLDAHVLITDLSMPGDKYGDGITLIKYIKRHFPSLSIIVLTMNNNPAILSAVLDLDIE
                GIVLKQGAPTDLPKALAALQKGKKFTPESVSRLLEKISAGGYGDKRLSPKESEVLRLFA
                EGFLVTEIAKKLNRSIKTISSQKKSAMMKLGVENDIALLNYLSSVTLSPTDKE"

Ген соответствует белку RCSB_SALTIB в банке Uniprot (Q56127) - сapsular synthesis regulator component B. Он работает вместе с белком RcsC, поэтому они и встретились в одной записи EMBL.

Поиск гомологов гена программой BLASTN

В предыдущем задании уже были найдены записи EMBL с моим белком, это записи D26185.entret и AL009126.entret. Из первого я вырезала нужную нуклеотидную последовательность:

$ seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): d26185.entret
     Begin at position [start]: 118895
       End at position [end]: 119272
        Reverse strand [N]: n
output sequence(s) [d26185.fasta]: rida_nucl.fasta

Затем был произведен поиск гомологов этой последовательности в геноме Geobacillus theromdentrificans, как и в первом задании (на этот раз мы сравниваем две нуклеотидные последовательности, поэтому используем программу blastn):

blastn -query rida_nucl.fasta -db gt -out rida_gt_nucl.out -evalue 0.001 -task blastn

В файле выхода rida_gt_nucl.out - информация о найденных гомологов. Как и в первом задании, найден только один гомолог с e-value < 0.001 (при использовании других параметров для поиска находится тоже только он).

TBLASTN:
1 находка
1e-54
52089-52460

BLASTN:
1 находка
9e-59
52107-52406

E-value в случае blastn меньше. Каждая аминокислота кодируется тремя нуклеотидами, и если все три совпадают, то это явно имеет бОльшую ценность, чем если совпадает аминокислота, из-за этого так и происходит.
Как видно, tblastn нашел сходство на более длинном участке (6 аминокислот или 18 нуклеотидов в начале последовательности). Вот выравнивание этого участка tblastn:

MTKAVH
+ + V 
LMRKVT

Видимо, это различие происходит из-за вырожденности генетического кода. Одни и те же аминокислоты могут быть закодированы разными нуклеотидами, и, видимо, на этом участке так и произошло. Поэтому аминокислотные последовательности более походи друг на друга, чем нуклеотидные.