Учебный сайт Кирилла Цуканова → Третий семестр

Программы пакета BLAST для работы с нуклеотидными последовательностями

Задание 1. Поиск в геноме участков, кодирующих белки, похожие на заданный

С помощью makeblastdb были созданы индексные файлы базы данных. Очевидно, для поиска белка в «сырой» последовательности необходима программа tblastn. Искать будем по белку YVDD_BACSU в геноме Geobacillus thermodenitrificans. Использование программы дает следующие результаты (выходной файл):

Число находок с E-value < 0,0011
E-value лучшей находки1e–53
Название последовательности с лучшей находкойCP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome (геном не поделен на какие-либо последовательности)
Координаты лучшей находки (от-до)289 720—290 256
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой93.7%

Из всего этого следует достаточно очевидный вывод, что в геноме Geobacillus thermodenitrificans белок, явно гомологичный YVDD_BACSU, есть.

Задание 2. Нахождение записи EMBL по последовательности программой blastn

По выданной последовательности был проведен поиск программой blastn на сайте EBI. Всего нашлось несколько явных совпадений (с идентичностью 100%): два результата из записей с полным геномом Synechococcus elongatus (разные штаммы), каждая длиной около 2.7М оснований; один результат из записи с некоторым кластером генов (2992 пары оснований); один результат из записи с геном цианат-лиазы. Хотя из последнего результата уже более-менее понятно, что это за последовательность, возьмем первый полный геном и изучим расположение последовательности в нём.

ID записи — CP000100, озаглавлена она как «Synechococcus elongatus PCC 7942, complete genome». Заданная последовательность встречается там с позиции 2 184 876 по 2 185 255 (т. е. направление совпадает с выбранным направлением записи).

В поле FT есть два пересечения с последовательностью. Первое — это ген, действительно, цианат-лиазы, расположенный в позициях 2 184 740 — 2 185 180 на комплементарной нашей записи стороне (т. е. в выданном файле с последовательностью — nonsence-цепь). Еще одно частичное пересечение — опять-таки на обратной цепи в позициях 2 185 191 — 2 186 060 (т. е. в заданную последовательность попал участок, комплементарный концу какого-то другого гена, названного там геном нитрат-транспортирующих АТФ-связывающихся субъединиц C и D).

Задание 3. Поиск гомологов программой blastn

Из записи EMBL, на которую ссылается UniProt, вырежем с помощью seqret отдельно последовательность (длиной 579 пар оснований) для YVDD_BACSU в файл yvdd_nucl.fasta.

С параметрами по умолчанию (включая указание -task blastn, конечно же) blastn находил только какой-то огрызок длиной 31 нуклеотид (хотя начинался он, как потом оказалось, на верном месте):

Query  1       ATGAAAACCATTTGTGTATTTGCGGGATCAA  31
               |||||| | ||||||||||||   |||||||
Sbjct  289720  ATGAAAGCAATTTGTGTATTTTGTGGATCAA  289750

По умолчанию blastn использует матрицу 2/–3, т. е. прибавляет два балла за совпадение нуклеотидов и убавляет три за несовпадение (дополнительно по умолчанию штраф 5 баллов за открытие гэпа и 2 за продление). Таким способом, как подсказывает мне интуиция, можно найти только очень близкие гомологи. В нашем случае белки отличаются больше (это было видно еще по выдаче tblastn), поэтому попробуем сменить матрицу на что-то более мягкое, хотя бы 1/–1. И тут нас ждет успех:

Query  1       ATGAAAACCATTTGTGTATTTGCGGGATCAAACCCTGGGGGAAATGAAGCGTATAAAAGA  60
               |||||| | ||||||||||||   ||||||| |  |||    ||       ||||||  |
Sbjct  289720  ATGAAAGCAATTTGTGTATTTTGTGGATCAAGCTATGGACAGAACAGCAAATATAAAGAA  289779

Query  61      AAAGCGGCAGAGCTTGGCGTGTATATGGCTGAGCAGGGAATCGGCCTTGTCTATGGGGGC  120
                 ||||   ||||||||  ||| | | |||   |  || ||    ||  | || || || 
Sbjct  289780  GCAGCGCAGGAGCTTGGGATGTTTTTAGCTCGCCGCGGCATTACGCTGATTTACGGCGGA  289839

Query  121     TCCCGCGTAGGCTTGATGGGCACGATTGCTGACGCGATTATGGAAAACGGCGGAACTGCA  180
                     |  ||  |||||||   | | || || ||  |  | |   |    ||   ||  
Sbjct  289840  GGAAAGGCTGGGCTGATGGGAGAGGTGGCCGAGGCAGTGCTAGGCCATCAAGGGCATGTC  289899

Query  181     ATCGGGGTCATGCCGAGCGGTTTGTTCAGCGGGGAGGTTGTCCATCAGAATCTGACTGAG  240
                ||||| |||| ||      ||||       | || || |  ||| |     |||  |||
Sbjct  289900  GTCGGGATCATTCCACAGTTTTTGAAAGATCGAGAAGTAGCTCATGATCGGTTGAGCGAG  289959

Query  241     CTGATTGAAGTAAACGGGATGCATGAACGAAAGGCTAAAATGAGCGAGCTGGCGGACGGC  300
                || | |  ||  |    ||||||   || ||||| ||||||| |||    || ||||| 
Sbjct  289960  TTGGTCGTCGTCGATACAATGCATACGCGCAAGGCGAAAATGAACGAAGCAGCCGACGGG  290019

Query  301     TTTATCTCGATGCCGGGCGGCTTCGGTACATATGAAGAATTATTTGAAGTGCTGTGCTGG  360
               |||||| |  |||| || || |  || || || |||||  | |||||||| ||||  |||
Sbjct  290020  TTTATCGCCCTGCCTGGAGGATATGGAACGTACGAAGAGCTGTTTGAAGTACTGTCGTGG  290079

Query  361     GCACAGATCGGCATCCACCAAAAGCCAATTGGACTGTACAATGTAAACGGATATTTTGAA  420
                | |   ||||| | |||||||| || || || |||  ||||||  |||| | |||||| 
Sbjct  290080  TCTCGCGTCGGCCTTCACCAAAAACCGATCGGCCTGCTCAATGTGGACGGCTTTTTTGAC  290139

Query  421     CCAATGATGAAAATGGTGAAATACAGCATTCAAGAAGGGTTT  462
               ||  |  |  |  || |     |||   ||||| |||| |||
Sbjct  290140  CCGCTCCTCGACTTGCTTCGGCACACGGTTCAACAAGGATTT  290181

Начало найденного участка совпадает с началом, найденным с помощью tblastn, процент покрытия — 79.8%. (В конце последовательности находится хвост белка, консервативность которого заметно снижена.) E-value увеличился до 1e-31. Оба факта связаны с тем, что находить гомологи в нуклеиновых кислотах сложнее. Координаты находки: 289720—290181.