BLAST

Учебный сайт Полины Байкузиной
Главная	Семестры	О себе	Ссылки

BLAST

Для выполнения заданий была взята последовательность белка NAD-dependent epimerase/dehydratase из организма археи Desulfurococcus kamchatkensis 1221n (идентификатор в базе данных RefSeq YP_002427953.1). Исходная последовательность доступна в fasta-формате.

Задание 1.

С помощью BLASTP были найдены последовательности, сходные с исходной последовательностью. Для этого в окно для искомой последовательности (Query Sequence) я скопировала последовательность моего белка в fasta-формате. В окне Database выбрала базу данных UniProtKB/Swiss-Prot, алгоритм - blastp (protein-protein BLAST). Далее были изменены дополнительные параметры алгоритма. Чтобы получить максимальное число находок, я изменила количество выводимых на экран находок (Max target sequences 20000) остальные параметры были оставлены по умолчанию ( условия поиска).

Всего было найдено 443 последовательности, из них 286 из организма бактерий, 5 из организма архей, 146 - эукариот и 6 - вирусов (Formatting options -> Organism).

Из найденных последовательностей были выбраны лучшая, худшая последовательности и одна из середины. В таблице 1 представлена информация о выбранных находках и полученных выравниваниях. Сами выравнивания представлены на Рис. 1-3.

Название белка	Организм	Длина выравнивания	Bit score	Процент идентичных колонок, %	Процент сходных колонок, %	E-value
Putative UDP-glucose 4-epimerase	Methanocaldococcus jannaschii	316	190	39%	57%	6e-56
dTDP-glucose 4,6-dehydratase	Xanthomonas campestris pv. campestris	336	76.3	27%	40%	3e-14
Aldehyde reductase 2	Sporobolomyces salmonicolor	189	31.6	25%	39%	9.9

Таблица 1. Информация о последовательностях белков, найденных с помощью BLASTP по белку YP_002427953.1 в базе данных RefSeq.

Рис.1. Выравнивание последовательности белка Putative UDP-glucose 4-epimerase из организма Methanocaldococcus jannaschii с исходной.

Рис.2. Выравнивание последовательности белка dTDP-glucose 4,6-dehydratase из организма Xanthomonas campestris pv. campestris с исходной.

Рис.3. Выравнивание последовательности белка Aldehyde reductase 2 из организма Sporobolomyces salmonicolor с исходной.

Из полученных находок гомологами исходной последователньости можно считать 299 последовательностей. За условный критерий было принято, что последовательность можно считать гомологичной, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover). Для того, чтобы найти находки-гомологи, был задан максимальный E-value 0.001 в Formatting options. На рисунке 4 изображено графическое представление результатов поиска.

Рис.4. Графическое представление находок-гомологов.

Задание 2.

Я провела поиск для отдельного таксона. Для этого я вернулась на страницу с параметрами запроса и в поле Organism указала Homo sapiens (условия поиска). Всего найдено 7 последовательностей. Среди находок я выбрала последовательность Stero-4-alpha-carboxylate 3-dehydrogenase, decarboxylating, которая была также найдена в первом поиске последовательностей. В двух находках совпадает все (sp|Q15738.2|NSDHL_HUMAN, Score 70.1, одинаковое выравнивание), кроме значения E-value. При поиске по отдельному таксону оно равно 2e-13, а без указания организма - 3е-12. E-value показывает, насколько случайна полученная находка, и т.к. первый банк был больше, то и полученная находка более случайна.

Задание 3.

Для создания карты локального сходства была выбрана последовательность белка Tetraketide alpha-pyrone reductase 2 (идентификатор в UniProtKB - Q9CA28). Далее было выполнено выравнивание двух последовательностей с помощью BLAST (условия поиска). Локальная карта сходства представлена на рисунке 5.

Из карты локального сходства видно совпадающий участок примерно с 10 остатка последовательности моего белка (отложена по горизонтали) и с начала гомологичной последовательности (отложена по вертикали). В выравнивании присутствуют 4 гэпа, что соответствует местам прерывания линии на графике.

Рис.5. Карта локального сходства для выравнивания белка NAD-dependent epimerase/dehydratase (по горизонтали) с белком Tetraketide alpha-pyrone reductase 2 (по вертикали).

Рис.6. Выравнивание белка NAD-dependent epimerase/dehydratase с белком Tetraketide alpha-pyrone reductase 2, построенное при помощи BLASTP.

Задание 4.

Из множественного выравнивания align_09.fasta была создана база данных при помощи команды makeblastdb (параметр -dbtype prot). Предварительно из выравнивания были удалены все гэпы. Итого, в базе данных было 6 последовательностей. Затем я произвела поиск в этой базе последовательность моего белка командой blastp. Информация о наиболее удачных находках представлена в таблице 2. Выравнивание представлено на рисунке 7 и 8 соответственно.

Выравнивание	Длина выравнивания	Bit score	Процент идентичных колонок, %	Процент сходных колонок, %	E-value
GEOKA	20	20.0	45%	70%	0.31
THEPJ	52	17.3	27%	44%	2.4

Таблица 2. Параметры лучшей находки при поиске последовательности белка NAD-dependent epimerase/dehydratase в новой базе данных.

Рис.7. Выравнивание белка NAD-dependent epimerase/dehydratase с последовательностью GEOKA из новой базы данных. На рисунке показаны параметры этого выравнивания, представленные в таблице 2.

Рис.8. Выравнивание белка NAD-dependent epimerase/dehydratase с последовательностью THEPJ из новой базы данных. На рисунке показаны параметры этого выравнивания, представленные в таблице 2.

Из таблицы и изображений выравниваний видно, что длина полученных выравниваний небольшая, значение Bit score низкое относительно исследованных выравниваний в предыдущих заданиях. Значение E-value довольно большое для данной базы данных. Это позволяет сделать вывод, что данные находки случайны, и нет повода говорить о гомологии данных последовательностей.

Учебный сайт Полины Байкузиной

BLAST