Надо определить, закодированы ли белки, похожие на RIDA_BACSU, в геноме Geobacillus theromdentrificans (GT), не пользуясь аннотацией генома, и найти такие белки. Для этого используем программу BLAST.
Вначале создадим необходимые индексные файлы BLAST+ для дальнейшего поиска по геному GT. Для этого используем команду makeblastdb с необходимыми параметрами:
makeblastdb -in gt_genome.fasta -out gt -dbtype nucl
Для выполнения задачи я выбрала программу tblastn.
tblastn -query rida_bacsu.fasta -db gt -out rida_gt -evalue 0.001
В выходном файле есть информация о ближайшем гомологе моего белка.
| Число находок с E-value < 0.001 | 1 |
| E-value лучшей находки | 1e-54 |
| Название последовательности с лечшей находкой | CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome |
| Координаты лучшей находки (от-до) | 52089-52460 |
| Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 100% |
Следуя инструкциям из подсказок и воспользовавшись BLASTN на сайте EBI, я нашла данную мне последовательность в записях EMBL. Было найдено достаточно много записей со 100%-м совпадением. БОльшая часть из них представляют собой полные геномы различных штаммов одной и той же бактерии Salmonella enterica, где данный мне участок был одинаковым. Однако первой в списке результатов оказалась запись более маленького участка последовательности из организма Salmonella enterica subsp. enterica serovar Typhi. Это запись, включающая в себя последовательности двух генов - rcsB и rcsC - X87830. Координаты заданной последовательности в ней - 346 - 525, направление прямое (в полных геномах направление обратное).
>EM_PRO:X87830 X87830.1 S.typhi rcsB & rcsC genes
Length = 1230
Score = 357 bits (180), Expect = 4e-96
Identities = 180/180 (100%)
Strand = Plus / Plus
Query: 1 ggagataaatacggcgatgggatcaccttgatcaagtacatcaagcgtcattttccgagc 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 346 ggagataaatacggcgatgggatcaccttgatcaagtacatcaagcgtcattttccgagc 405
Query: 61 ctgtctattatcgttctgaccatgaacaacaatccggcgatcctgagcgccgtgttggat 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 406 ctgtctattatcgttctgaccatgaacaacaatccggcgatcctgagcgccgtgttggat 465
Query: 121 cttgatattgaagggatcgtactcaaacagggtgcgccaaccgatctgcctaaggcgctg 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 466 cttgatattgaagggatcgtactcaaacagggtgcgccaaccgatctgcctaaggcgctg 525166-816 нуклеотиды этой записи составляют ген rscB, соответственно, туда попадает и искомая последовательность. Направление гена, естественно, также прямое.
CDS 166..816
/transl_table=11
/gene="rcsB"
/product="RcsB protein"
/db_xref="GOA:Q56127"
/db_xref="InterPro:IPR000792"
/db_xref="InterPro:IPR001789"
/db_xref="InterPro:IPR011006"
/db_xref="InterPro:IPR011991"
/db_xref="InterPro:IPR016032"
/db_xref="UniProtKB/Swiss-Prot:Q56127"
/protein_id="CAA61094.1"
/translation="MNNMNIIIADDHPIVLFGIRKSLEQIEWVNVVGEFEDSTALINNL
PKLDAHVLITDLSMPGDKYGDGITLIKYIKRHFPSLSIIVLTMNNNPAILSAVLDLDIE
GIVLKQGAPTDLPKALAALQKGKKFTPESVSRLLEKISAGGYGDKRLSPKESEVLRLFA
EGFLVTEIAKKLNRSIKTISSQKKSAMMKLGVENDIALLNYLSSVTLSPTDKE"Ген соответствует белку RCSB_SALTIB в банке Uniprot (Q56127) - сapsular synthesis regulator component B. Он работает вместе с белком RcsC, поэтому они и встретились в одной записи EMBL.
В предыдущем задании уже были найдены записи EMBL с моим белком, это записи D26185.entret и AL009126.entret. Из первого я вырезала нужную нуклеотидную последовательность:
$ seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): d26185.entret
Begin at position [start]: 118895
End at position [end]: 119272
Reverse strand [N]: n
output sequence(s) [d26185.fasta]: rida_nucl.fastaЗатем был произведен поиск гомологов этой последовательности в геноме Geobacillus theromdentrificans, как и в первом задании (на этот раз мы сравниваем две нуклеотидные последовательности, поэтому используем программу blastn):
blastn -query rida_nucl.fasta -db gt -out rida_gt_nucl.out -evalue 0.001 -task blastn
В файле выхода rida_gt_nucl.out - информация о найденных гомологов. Как и в первом задании, найден только один гомолог с e-value < 0.001 (при использовании других параметров для поиска находится тоже только он).
| TBLASTN: 1 находка 1e-54 52089-52460 |
BLASTN: 1 находка 9e-59 52107-52406 |
E-value в случае blastn меньше. Каждая аминокислота кодируется тремя нуклеотидами, и если все три совпадают, то это явно имеет бОльшую ценность, чем если совпадает аминокислота, из-за этого так и происходит.
Как видно, tblastn нашел сходство на более длинном участке (6 аминокислот или 18 нуклеотидов в начале последовательности). Вот выравнивание этого участка tblastn:
MTKAVH + + V LMRKVT
Видимо, это различие происходит из-за вырожденности генетического кода. Одни и те же аминокислоты могут быть закодированы разными нуклеотидами, и, видимо, на этом участке так и произошло. Поэтому аминокислотные последовательности более походи друг на друга, чем нуклеотидные.