Работа с программой BLAST


1. Поиск гомологов белка DISA_THEMА. Множественное выравнивание белка DISA_THEMА с его гомологами

Параметры запуска BLAST представлены в таблице 1.

Таблица 1. Параметры запуска BLAST
GB code AAD35292.1
Database UniProtKB/Swiss-Prot(swissprot)
Algorithm blastp
E-value threshold 0.05
Word size 3
Short queries Automatically adjust parameters for short input sequences
Matrix BLOSUM62
Gap costs Existence: 11 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter
Mask

Текстовая выдача программы
Проект множественного выравнивания Jalview

Для построения множеcтвенного выравнивания были выбраны белки с идентификаторами Q3A9N3, B2UY85, A3DGC7, A8F956, A8LF79, Q9X8L6, которые выравнивались с моим белком Q9WY43. По результатам выравнивания можно сказать, что белки действительно гомологичны: видны участки с высокой консервативностью: столбцы 115-124, 126-131, 32-34, 82-90, 166-169, 172-176.

2. Поиск и множественное выравнивание гомологов вирусного белка, вырезанного из полипротеина вируса японского энцефалита

Для выполнения этого задания был выбран белок из полипротеина вируса Japanese encephalitis virus (strain Nakayama) (JEV).

Текстовая выдача
Ссылка на файл с последовательностью белка
Проект множественного выравнивания Jalview

Поиск был произведен с теми же параметрами, что и в задании 1. Для построения выравнивания с моим белком были выбраны следующие белки: Q32ZE1:134-290, Q32ZD7:119-285, Q32ZD4:119-285, P09732:122-288, P05769:126-292, Q9Q6P4:126-290. По результатам выравнивания вполне можно предположить, что белки гомологичны.

3. Исследование зависимости E-value от объёма банка

После применения фильтра по организмам добавилась одна новая последовательность(программа выдала 71 последовательность вместо 70). ID новой последовательности P33515, E-value 0.005. Такое большое значение E-value свидетельствует о том, что данная последовательность вряд ли будет гомологична исходному белку, т.к выравнивание будет иметь явно низкий вес.
По этой ссылке доступен текстовый вариант выдачи.
Значения E-value изменились. В таблице 2 приведено сравнение значений параметра при разных объемах банка.

Таблица 2. Сравнение параметра E-value при изменении объема банка
E-value при поиске только по вирусам E-value при поиске по всем организмам
P14403 2e-117 4e-116
P0DOH7 5e-109 1e-107
Q32ZE1 1e-41 3e-40

Как видно из таблицы 2, при уменьшении размеров банка E-value уменьшается, что также следует из формулы: E-value=mn·2-B, где m – длина исходной последовательности, n – размер базы данных, B – вес в битах.
Долю вирусных белков в Swissprot можно оценить, разделив значение E-value при заданном параметре поиска по вирусам на значение E-value без параметра поиска по оргагизмам, т.к. E-value прямо пропорционален объему банка. Сделаем это для исходной последовательности P14403: 2е-117/4e-116=0.05=5% – доля вирусных белков в Swissprot.