Учебный сайт Полины Байкузиной

Главная Семестры О себе Ссылки

BLAST

Для выполнения заданий была взята последовательность белка NAD-dependent epimerase/dehydratase из организма археи Desulfurococcus kamchatkensis 1221n (идентификатор в базе данных RefSeq YP_002427953.1). Исходная последовательность доступна в fasta-формате.

Задание 1.

С помощью BLASTP были найдены последовательности, сходные с исходной последовательностью. Для этого в окно для искомой последовательности (Query Sequence) я скопировала последовательность моего белка в fasta-формате. В окне Database выбрала базу данных UniProtKB/Swiss-Prot, алгоритм - blastp (protein-protein BLAST). Далее были изменены дополнительные параметры алгоритма. Чтобы получить максимальное число находок, я изменила количество выводимых на экран находок (Max target sequences 20000) остальные параметры были оставлены по умолчанию ( условия поиска).

Всего было найдено 443 последовательности, из них 286 из организма бактерий, 5 из организма архей, 146 - эукариот и 6 - вирусов (Formatting options -> Organism).

Из найденных последовательностей были выбраны лучшая, худшая последовательности и одна из середины. В таблице 1 представлена информация о выбранных находках и полученных выравниваниях. Сами выравнивания представлены на Рис. 1-3.

Название белка Организм Длина выравнивания Bit score Процент идентичных колонок, % Процент сходных колонок, % E-value
Putative UDP-glucose 4-epimerase Methanocaldococcus jannaschii 316 190 39% 57% 6e-56
dTDP-glucose 4,6-dehydratase Xanthomonas campestris pv. campestris 336 76.3 27% 40% 3e-14
Aldehyde reductase 2 Sporobolomyces salmonicolor 189 31.6 25% 39% 9.9
Таблица 1. Информация о последовательностях белков, найденных с помощью BLASTP по белку YP_002427953.1 в базе данных RefSeq.

Рис.1. Выравнивание последовательности белка Putative UDP-glucose 4-epimerase из организма Methanocaldococcus jannaschii с исходной.

Рис.2. Выравнивание последовательности белка dTDP-glucose 4,6-dehydratase из организма Xanthomonas campestris pv. campestris с исходной.

Рис.3. Выравнивание последовательности белка Aldehyde reductase 2 из организма Sporobolomyces salmonicolor с исходной.

Из полученных находок гомологами исходной последователньости можно считать 299 последовательностей. За условный критерий было принято, что последовательность можно считать гомологичной, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover). Для того, чтобы найти находки-гомологи, был задан максимальный E-value 0.001 в Formatting options. На рисунке 4 изображено графическое представление результатов поиска.

Рис.4. Графическое представление находок-гомологов.


Задание 2.

Я провела поиск для отдельного таксона. Для этого я вернулась на страницу с параметрами запроса и в поле Organism указала Homo sapiens (условия поиска). Всего найдено 7 последовательностей. Среди находок я выбрала последовательность Stero-4-alpha-carboxylate 3-dehydrogenase, decarboxylating, которая была также найдена в первом поиске последовательностей. В двух находках совпадает все (sp|Q15738.2|NSDHL_HUMAN, Score 70.1, одинаковое выравнивание), кроме значения E-value. При поиске по отдельному таксону оно равно 2e-13, а без указания организма - 3е-12. E-value показывает, насколько случайна полученная находка, и т.к. первый банк был больше, то и полученная находка более случайна.

Задание 3.

Для создания карты локального сходства была выбрана последовательность белка Tetraketide alpha-pyrone reductase 2 (идентификатор в UniProtKB - Q9CA28). Далее было выполнено выравнивание двух последовательностей с помощью BLAST (условия поиска). Локальная карта сходства представлена на рисунке 5.

Из карты локального сходства видно совпадающий участок примерно с 10 остатка последовательности моего белка (отложена по горизонтали) и с начала гомологичной последовательности (отложена по вертикали). В выравнивании присутствуют 4 гэпа, что соответствует местам прерывания линии на графике.

Рис.5. Карта локального сходства для выравнивания белка NAD-dependent epimerase/dehydratase (по горизонтали) с белком Tetraketide alpha-pyrone reductase 2 (по вертикали).

Рис.6. Выравнивание белка NAD-dependent epimerase/dehydratase с белком Tetraketide alpha-pyrone reductase 2, построенное при помощи BLASTP.

Задание 4.

Из множественного выравнивания align_09.fasta была создана база данных при помощи команды makeblastdb (параметр -dbtype prot). Предварительно из выравнивания были удалены все гэпы. Итого, в базе данных было 6 последовательностей. Затем я произвела поиск в этой базе последовательность моего белка командой blastp. Информация о наиболее удачных находках представлена в таблице 2. Выравнивание представлено на рисунке 7 и 8 соответственно.

Выравнивание Длина выравнивания Bit score Процент идентичных колонок, % Процент сходных колонок, % E-value
GEOKA 20 20.0 45% 70% 0.31
THEPJ 52 17.3 27% 44% 2.4
Таблица 2. Параметры лучшей находки при поиске последовательности белка NAD-dependent epimerase/dehydratase в новой базе данных.

Рис.7. Выравнивание белка NAD-dependent epimerase/dehydratase с последовательностью GEOKA из новой базы данных. На рисунке показаны параметры этого выравнивания, представленные в таблице 2.

Рис.8. Выравнивание белка NAD-dependent epimerase/dehydratase с последовательностью THEPJ из новой базы данных. На рисунке показаны параметры этого выравнивания, представленные в таблице 2.

Из таблицы и изображений выравниваний видно, что длина полученных выравниваний небольшая, значение Bit score низкое относительно исследованных выравниваний в предыдущих заданиях. Значение E-value довольно большое для данной базы данных. Это позволяет сделать вывод, что данные находки случайны, и нет повода говорить о гомологии данных последовательностей.


© Полина Байкузина, 2014