Программа BLAST

1. Поиск гомологов белка в Swissprot (AC: P25321)
Поиск гомологов белка был выполнен с помощью программы BLAST - алгоритма для нахождения участков локального сходства между последовательностями. При запуске программы использовались следующие параметры: AC белка в Uniprot, поиск в базе данных Swiss-Prot (Database: UniProtKB/Swiss-Prot(swissprot)), алгоритм – blastp(protein-protein BLAST), максимальное число показываемых выравниваний – 100, порог E-value – 10, размер слова - 3, матрица выравнивания – BLOSUM62 со штрафами за наличие гэпов – 11, а за продолжение – 1.

Ссылка на текстовую выдачу программы

Были отобраны следующие 6 найденных белков: O62846, P21901, P21137, Q03043, P51817, P36887 – и создано множественное выравнивание данных белков и изначального. Выравнивание было раскрашено в Jalview по % идентичности.

Ссылка на проект Jalview

У всех белков наблюдаются некоторые сходства, особенно ярко выраженные на участке 780-946, что позволяет говорить о гомологии всех белков. Впрочем, в белке Q03043 присутствуют обширные вставки, а в O62846 отсутствует довольно большой участок на конце.

2. Поиск в Swissprot гомологов последовательности зрелого вирусного белка
В качестве запроса на вход BLAST был подан вырезанный из полипротеина 1ab зрелый белок вируса SARS, полученный в упражнении 2 практикума 9. Это ингибитор трансляции хозяина nsp1, его координаты в полипротеине – [1:180]. Остальные параметры поиска такие же, как и в первом упражнении. Для множественного выравнивания были выбраны белки P0C6W2, P0C6T7, P0C6F5, P0C6V9, P0C6W6. После редактирования и окрашивания по % идентичности в Jalview стало очевидно, что у исходного белка и фрагментов полипротеина, выровненных с ним, очень мало различий, причем во всех полипротеинах данный фрагмент находится там же, где и исходный белок в своем полипротеине.

Ссылка на текстовую выдачу программы

Ссылка на проект Jalview

3. Исследование зависимости E-value от объёма банка
После применения фильтра к поисковому запросу из предыдущего упражнения изменились число находок и состав найденного. В пункте 2 было найдено 23 белка, не все из них вирусные, а при ограничении поиска вирусами было найдено 24 белка. Кроме того, изменились значения E-value: например, у белка P0C6T7 оно составляло 7e-115, а после ограничения поиска уменьшилось до 3e-116. Поскольку E-value прямо пропорционально размеру базы данных, а остальные компоненты формулы, отражающей теорему С.Карлина, в данном случае остаются неизменными, можно оценить долю вирусных белков в Swiss-Prot. Таким образом, доля вирусных белков составляет около 0.04.