10. Программа BLAST

1. Поиск гомологов белка в Swiss-Prot

Для поиска гомологов белка ДНК-топоизоимеразы (АТФ-гидролизирующей) с AC: A0A1L2FR56 был произведен поиск в Protein Blast на сайте NCBI. В окно "Enter query sequence" была скопирована последовательность белка в fasta-формате. При выборе базы данных была указана в swissprot, остальные настройки были оставлены по умолчанию. При сохранении файла с выдачей был указан формат TEXT.

Файл с выдачей

Так как поиск выдал 100 предполагаемых гомологов, то максимальное число выдаваемых находок было увеличено до 500. Из них были отобраны 5 последовательностей имеющие наиболее низкий E-value, который составил от 3e-44 до 5e-67. AC выбранных последовательностей: P35886.1, P50075.1, P50074.1, Q9L7L3.1, A0QNE0.1. Далее были скачаны последовательности данных белков в fasta-формате и проведено их множественное выравнивание на сайте UniPort, после чего файл с выравниванием был открыт с помощью Jalviewg.

Файл с выравниванием

Выравнивание показало, что белки являются гомологичными. Для наглядности высокого уровня сходства было проведено окрашивание по проценту идентичности. Среднее количество гэпов не превышает 5% длинны последовательностей предполагаемых гомологов. Однако для последовательности, которая была взята для поиска, данное утверждение не верно. Её выравнивание имеет большие индели в начале и в конце. Так, что аминокислоты белка располагаются приблизительно по середине всего выравнивания. Это обусловленно длиной выбранного для поиска белка, которая составляет 137 а.о. против среднего 680 а.о. среди найденных гомологов. Несмотря на разницу в длине последовательности можно считать гомологичными, так как скорее всего выбранный белок представляет лишь часть найденных белков. Укорочение могло произойти в результате эволюции с сохранением каталитического центра, как наиболее важного региона, определяющего работу фермента.

2. Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

В качестве вирусного полипротеина, был выбран Capsid polyprotein VP90 ID: CAPSD_HASV1, AC: O12792, OC: Human astrovirus-1(HAstV-1). В дальнейшем из его зрелых белков был выбран Spike protein VP27 с координатами: 394-648.

Зрелый белок из полипротеина

При поиске в Blast были указаны параметры, использовавшиеся в первом задании.

Файл с выдачей

В результате работы blastp были получены всего 9 последовательностей, несмотря на ограничение поиска до 500 находок. Это обуславливается тем, что в Swissprot достаточно мало аннотированых записей о белках астровирусов.

Из находок были отобраны 5 последовательностей имеющие наиболее низкий E-value, который составил от 1e-109 до 1e-82. ID выбранных последовательностей: CAPSD_HASV3, CAPSD_HASV7, CAPSD_HASV8, CAPSD_HASV6, CAPSD_HASV2. Все выбранные белки принадлежат группе Человеческих астровирусов. Далее были скачаны последовательности данных белков в fasta-формате и проведено их множественное выравнивание в Jalviewg. В качестве алгоритма был выбран MUSCLE.

Файл с выравниванием

При редактировании выравнивания в Jalview были удалены все буквы находок, которые в выравнивании оказались левее первой или правее последней буквы, выровненной с какой-либо буквой исходного зрелого белка, так как он оказался короче выбранных находок. Выравнивание окрашено с помощью Clustal. При визуальном анализе заметно, что выравнивание прошло хорошо, о чём свидетельствуют минимальное количество гэпов и большое количество совпадающих а.о. Из выравнивания следует гомологичность выбраных белков.

3. Исследование зависимости E-value от объёма банка

При повторном поиске в Blast гомологов зрелого белка из полипротена в поле Organism было указано Vurises. Список находок при этом не изменился.

Для AEM37640 E-value поменялось по сравнению с предыдущим поиском. Оно составило 3e-178, вместо предыдущих 5e-177.

Зная формулу E-value = Kmn·e^(-λS) можно оценить долю вирусных белков в Swiss-Prot. Так как K, m, λ и S являются константами, то отношение E-value будет являться их долей. 5e-177/3e-178 = 0,033 или 3,3%.