Задание 1. Поиск в геноме участков, кодирующих белки, похожие на заданный
С помощью makeblastdb
были созданы индексные файлы базы данных. Очевидно, для поиска белка в «сырой» последовательности необходима программа tblastn
. Искать будем по белку YVDD_BACSU
в геноме Geobacillus thermodenitrificans. Использование программы дает следующие результаты (выходной файл):
Число находок с E-value < 0,001 | 1 |
E-value лучшей находки | 1e–53 |
Название последовательности с лучшей находкой | CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome (геном не поделен на какие-либо последовательности) |
Координаты лучшей находки (от-до) | 289 720—290 256 |
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой | 93.7% |
Из всего этого следует достаточно очевидный вывод, что в геноме Geobacillus thermodenitrificans белок, явно гомологичный YVDD_BACSU, есть.
Задание 2. Нахождение записи EMBL по последовательности программой blastn
По выданной последовательности был проведен поиск программой blastn
на сайте EBI. Всего нашлось несколько явных совпадений (с идентичностью 100%): два результата из записей с полным геномом Synechococcus elongatus (разные штаммы), каждая длиной около 2.7М оснований; один результат из записи с некоторым кластером генов (2992 пары оснований); один результат из записи с геном цианат-лиазы. Хотя из последнего результата уже более-менее понятно, что это за последовательность, возьмем первый полный геном и изучим расположение последовательности в нём.
ID записи — CP000100
, озаглавлена она как «Synechococcus elongatus PCC 7942, complete genome». Заданная последовательность встречается там с позиции 2 184 876 по 2 185 255 (т. е. направление совпадает с выбранным направлением записи).
В поле FT есть два пересечения с последовательностью. Первое — это ген, действительно, цианат-лиазы, расположенный в позициях 2 184 740 — 2 185 180 на комплементарной нашей записи стороне (т. е. в выданном файле с последовательностью — nonsence-цепь). Еще одно частичное пересечение — опять-таки на обратной цепи в позициях 2 185 191 — 2 186 060 (т. е. в заданную последовательность попал участок, комплементарный концу какого-то другого гена, названного там геном нитрат-транспортирующих АТФ-связывающихся субъединиц C и D).
Задание 3. Поиск гомологов программой blastn
Из записи EMBL, на которую ссылается UniProt, вырежем с помощью seqret
отдельно последовательность (длиной 579 пар оснований) для YVDD_BACSU
в файл yvdd_nucl.fasta.
С параметрами по умолчанию (включая указание -task blastn
, конечно же) blastn
находил только какой-то огрызок длиной 31 нуклеотид (хотя начинался он, как потом оказалось, на верном месте):
Query 1 ATGAAAACCATTTGTGTATTTGCGGGATCAA 31 |||||| | |||||||||||| ||||||| Sbjct 289720 ATGAAAGCAATTTGTGTATTTTGTGGATCAA 289750
По умолчанию blastn
использует матрицу 2/–3, т. е. прибавляет два балла за совпадение нуклеотидов и убавляет три за несовпадение (дополнительно по умолчанию штраф 5 баллов за открытие гэпа и 2 за продление). Таким способом, как подсказывает мне интуиция, можно найти только очень близкие гомологи. В нашем случае белки отличаются больше (это было видно еще по выдаче tblastn
), поэтому попробуем сменить матрицу на что-то более мягкое, хотя бы 1/–1. И тут нас ждет успех:
Query 1 ATGAAAACCATTTGTGTATTTGCGGGATCAAACCCTGGGGGAAATGAAGCGTATAAAAGA 60 |||||| | |||||||||||| ||||||| | ||| || |||||| | Sbjct 289720 ATGAAAGCAATTTGTGTATTTTGTGGATCAAGCTATGGACAGAACAGCAAATATAAAGAA 289779 Query 61 AAAGCGGCAGAGCTTGGCGTGTATATGGCTGAGCAGGGAATCGGCCTTGTCTATGGGGGC 120 |||| |||||||| ||| | | ||| | || || || | || || || Sbjct 289780 GCAGCGCAGGAGCTTGGGATGTTTTTAGCTCGCCGCGGCATTACGCTGATTTACGGCGGA 289839 Query 121 TCCCGCGTAGGCTTGATGGGCACGATTGCTGACGCGATTATGGAAAACGGCGGAACTGCA 180 | || ||||||| | | || || || | | | | || || Sbjct 289840 GGAAAGGCTGGGCTGATGGGAGAGGTGGCCGAGGCAGTGCTAGGCCATCAAGGGCATGTC 289899 Query 181 ATCGGGGTCATGCCGAGCGGTTTGTTCAGCGGGGAGGTTGTCCATCAGAATCTGACTGAG 240 ||||| |||| || |||| | || || | ||| | ||| ||| Sbjct 289900 GTCGGGATCATTCCACAGTTTTTGAAAGATCGAGAAGTAGCTCATGATCGGTTGAGCGAG 289959 Query 241 CTGATTGAAGTAAACGGGATGCATGAACGAAAGGCTAAAATGAGCGAGCTGGCGGACGGC 300 || | | || | |||||| || ||||| ||||||| ||| || ||||| Sbjct 289960 TTGGTCGTCGTCGATACAATGCATACGCGCAAGGCGAAAATGAACGAAGCAGCCGACGGG 290019 Query 301 TTTATCTCGATGCCGGGCGGCTTCGGTACATATGAAGAATTATTTGAAGTGCTGTGCTGG 360 |||||| | |||| || || | || || || ||||| | |||||||| |||| ||| Sbjct 290020 TTTATCGCCCTGCCTGGAGGATATGGAACGTACGAAGAGCTGTTTGAAGTACTGTCGTGG 290079 Query 361 GCACAGATCGGCATCCACCAAAAGCCAATTGGACTGTACAATGTAAACGGATATTTTGAA 420 | | ||||| | |||||||| || || || ||| |||||| |||| | |||||| Sbjct 290080 TCTCGCGTCGGCCTTCACCAAAAACCGATCGGCCTGCTCAATGTGGACGGCTTTTTTGAC 290139 Query 421 CCAATGATGAAAATGGTGAAATACAGCATTCAAGAAGGGTTT 462 || | | | || | ||| ||||| |||| ||| Sbjct 290140 CCGCTCCTCGACTTGCTTCGGCACACGGTTCAACAAGGATTT 290181
Начало найденного участка совпадает с началом, найденным с помощью tblastn, процент покрытия — 79.8%. (В конце последовательности находится хвост белка, консервативность которого заметно снижена.) E-value увеличился до 1e-31. Оба факта связаны с тем, что находить гомологи в нуклеиновых кислотах сложнее. Координаты находки: 289720—290181.