Надо определить, закодированы ли белки, похожие на RIDA_BACSU, в геноме Geobacillus theromdentrificans (GT), не пользуясь аннотацией генома, и найти такие белки. Для этого используем программу BLAST.
Вначале создадим необходимые индексные файлы BLAST+ для дальнейшего поиска по геному GT. Для этого используем команду makeblastdb с необходимыми параметрами:
makeblastdb -in gt_genome.fasta -out gt -dbtype nucl
Для выполнения задачи я выбрала программу tblastn.
tblastn -query rida_bacsu.fasta -db gt -out rida_gt -evalue 0.001
В выходном файле есть информация о ближайшем гомологе моего белка.
Число находок с E-value < 0.001 | 1 |
E-value лучшей находки | 1e-54 |
Название последовательности с лечшей находкой | CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome |
Координаты лучшей находки (от-до) | 52089-52460 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 100% |
Следуя инструкциям из подсказок и воспользовавшись BLASTN на сайте EBI, я нашла данную мне последовательность в записях EMBL. Было найдено достаточно много записей со 100%-м совпадением. БОльшая часть из них представляют собой полные геномы различных штаммов одной и той же бактерии Salmonella enterica, где данный мне участок был одинаковым. Однако первой в списке результатов оказалась запись более маленького участка последовательности из организма Salmonella enterica subsp. enterica serovar Typhi. Это запись, включающая в себя последовательности двух генов - rcsB и rcsC - X87830. Координаты заданной последовательности в ней - 346 - 525, направление прямое (в полных геномах направление обратное).
>EM_PRO:X87830 X87830.1 S.typhi rcsB & rcsC genes Length = 1230 Score = 357 bits (180), Expect = 4e-96 Identities = 180/180 (100%) Strand = Plus / Plus Query: 1 ggagataaatacggcgatgggatcaccttgatcaagtacatcaagcgtcattttccgagc 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 346 ggagataaatacggcgatgggatcaccttgatcaagtacatcaagcgtcattttccgagc 405 Query: 61 ctgtctattatcgttctgaccatgaacaacaatccggcgatcctgagcgccgtgttggat 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 406 ctgtctattatcgttctgaccatgaacaacaatccggcgatcctgagcgccgtgttggat 465 Query: 121 cttgatattgaagggatcgtactcaaacagggtgcgccaaccgatctgcctaaggcgctg 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 466 cttgatattgaagggatcgtactcaaacagggtgcgccaaccgatctgcctaaggcgctg 525
166-816 нуклеотиды этой записи составляют ген rscB, соответственно, туда попадает и искомая последовательность. Направление гена, естественно, также прямое.
CDS 166..816 /transl_table=11 /gene="rcsB" /product="RcsB protein" /db_xref="GOA:Q56127" /db_xref="InterPro:IPR000792" /db_xref="InterPro:IPR001789" /db_xref="InterPro:IPR011006" /db_xref="InterPro:IPR011991" /db_xref="InterPro:IPR016032" /db_xref="UniProtKB/Swiss-Prot:Q56127" /protein_id="CAA61094.1" /translation="MNNMNIIIADDHPIVLFGIRKSLEQIEWVNVVGEFEDSTALINNL PKLDAHVLITDLSMPGDKYGDGITLIKYIKRHFPSLSIIVLTMNNNPAILSAVLDLDIE GIVLKQGAPTDLPKALAALQKGKKFTPESVSRLLEKISAGGYGDKRLSPKESEVLRLFA EGFLVTEIAKKLNRSIKTISSQKKSAMMKLGVENDIALLNYLSSVTLSPTDKE"
Ген соответствует белку RCSB_SALTIB в банке Uniprot (Q56127) - сapsular synthesis regulator component B. Он работает вместе с белком RcsC, поэтому они и встретились в одной записи EMBL.
В предыдущем задании уже были найдены записи EMBL с моим белком, это записи D26185.entret и AL009126.entret. Из первого я вырезала нужную нуклеотидную последовательность:
$ seqret -sask Reads and writes (returns) sequences Input (gapped) sequence(s): d26185.entret Begin at position [start]: 118895 End at position [end]: 119272 Reverse strand [N]: n output sequence(s) [d26185.fasta]: rida_nucl.fasta
Затем был произведен поиск гомологов этой последовательности в геноме Geobacillus theromdentrificans, как и в первом задании (на этот раз мы сравниваем две нуклеотидные последовательности, поэтому используем программу blastn):
blastn -query rida_nucl.fasta -db gt -out rida_gt_nucl.out -evalue 0.001 -task blastn
В файле выхода rida_gt_nucl.out - информация о найденных гомологов. Как и в первом задании, найден только один гомолог с e-value < 0.001 (при использовании других параметров для поиска находится тоже только он).
TBLASTN: 1 находка 1e-54 52089-52460 |
BLASTN: 1 находка 9e-59 52107-52406 |
E-value в случае blastn меньше. Каждая аминокислота кодируется тремя нуклеотидами, и если все три совпадают, то это явно имеет бОльшую ценность, чем если совпадает аминокислота, из-за этого так и происходит.
Как видно, tblastn нашел сходство на более длинном участке (6 аминокислот или 18 нуклеотидов в начале последовательности). Вот выравнивание этого участка tblastn:
MTKAVH + + V LMRKVT
Видимо, это различие происходит из-за вырожденности генетического кода. Одни и те же аминокислоты могут быть закодированы разными нуклеотидами, и, видимо, на этом участке так и произошло. Поэтому аминокислотные последовательности более походи друг на друга, чем нуклеотидные.