Параметры запуска BLAST представлены в таблице 1.
Таблица 1. Параметры запуска BLAST | |
---|---|
GB code | AAD35292.1 |
Database | UniProtKB/Swiss-Prot(swissprot) | Algorithm | blastp |
E-value threshold | 0.05 | Word size | 3 |
Short queries | Automatically adjust parameters for short input sequences |
Matrix | BLOSUM62 |
Gap costs | Existence: 11 Extension: 1 |
Compositional adjustments | Conditional compositional score matrix adjustment |
Filter | — |
Mask | — |
Текстовая выдача программы
Проект множественного выравнивания Jalview
Для построения множеcтвенного выравнивания были выбраны белки с идентификаторами Q3A9N3, B2UY85, A3DGC7, A8F956, A8LF79, Q9X8L6, которые выравнивались с моим белком Q9WY43. По результатам выравнивания можно сказать, что белки действительно гомологичны: видны участки с высокой консервативностью: столбцы 115-124, 126-131, 32-34, 82-90, 166-169, 172-176.
Для выполнения этого задания был выбран белок из полипротеина вируса Japanese encephalitis virus (strain Nakayama) (JEV).
Текстовая выдача
Ссылка на файл с последовательностью белка
Проект множественного выравнивания Jalview
Поиск был произведен с теми же параметрами, что и в задании 1. Для построения выравнивания с моим белком были выбраны следующие белки: Q32ZE1:134-290, Q32ZD7:119-285, Q32ZD4:119-285, P09732:122-288, P05769:126-292, Q9Q6P4:126-290. По результатам выравнивания вполне можно предположить, что белки гомологичны.
После применения фильтра по организмам добавилась одна новая последовательность(программа выдала 71 последовательность вместо 70). ID новой последовательности P33515, E-value 0.005. Такое большое значение E-value свидетельствует о том, что данная последовательность вряд ли будет гомологична исходному белку, т.к выравнивание будет иметь явно низкий вес.
По этой ссылке доступен текстовый вариант выдачи.
Значения E-value изменились. В таблице 2 приведено сравнение значений параметра при разных объемах банка.
Таблица 2. Сравнение параметра E-value при изменении объема банка | ||
---|---|---|
E-value при поиске только по вирусам | E-value при поиске по всем организмам | |
P14403 | 2e-117 | 4e-116 |
P0DOH7 | 5e-109 | 1e-107 |
Q32ZE1 | 1e-41 | 3e-40 |
Как видно из таблицы 2, при уменьшении размеров банка E-value уменьшается, что также следует из формулы: E-value=mn·2-B, где m – длина исходной последовательности, n – размер базы данных, B – вес в битах.
Долю вирусных белков в Swissprot можно оценить, разделив значение E-value при заданном параметре поиска по вирусам на значение E-value без параметра поиска по оргагизмам, т.к. E-value прямо пропорционален объему банка. Сделаем это для исходной последовательности P14403: 2е-117/4e-116=0.05=5% – доля вирусных белков в Swissprot.