Программа BLAST

1 Поиск в Swissprot гомологов белка

При запуске BLAST были использованы следующие параметры:

Enter Query Sequence:

Database:

Algorithm:

Max target sequences:

Expect threshold:

Word size:

Matrix:

Gap Costs:

Filter:

BAA17889.1

UniProtKB/Swiss-Prot(swissprot)

blastp (protein-protein BLAST)

100

0.05

6

BLOSUM62

Existence: 11 Extension: 1

Low complexity regions

Текстовая выдача програмы доступна по ссылке. Выдача содержит всего шесть находок, поэтому было решено работать со всеми из них. Множественное выравнивание доступно по ссылке. Все белки являются гомологичными, т. к. имеется несколько конссервативных участков.

2 Поиск в Swissprot гомологов зрелого вирусного белка, вырезанного из полипротеина

Для работы выбран полипротеин со следующими характеристиками:

ID:

AC:

OS:

R1AB_BCHK4

P0C6W3; A3EX93

Bat coronavirus HKU4 (BtCoV) (BtCoV/HKU4/2004)

Для дальнейшей работы выбран белок RNA-directed RNA polymerase (РНК-зависимая РНК-полимераза) с коортдинатами 4421..5354. Фрагмент последовательности доступен по ссылке. Выдача программы BLAST доступнна по ссылке. Всего в выдаче 35 белков, из них решено работать с 7 белками: P0C6W3 (исходный белок), P0C6W1, P0C6W4, K9N7C7, P0C6W2, P0C6W5 и P0C6X9. Множественное выравнивание этих белков доступно по ссылке. Все белки являются гомологичными, т. к. имеются многочисленные длинные высококонсервативные участки, совершенно не различающиеся между собой у разных представителей.

3 Исследование зависимости E-value от объёма банка

При применении фильтра по организмам было найдено 36 белков, т. е. на один белок больше. Это белок обладает довольно высоким E-value=0.027, при первом поиске этот белок должен был обладать ещё большим E-value, поэтому эта ноходка не попала в выдачу. Значение E-value по теореме Карлина определяется формулой:

\begin{equation}E\text{-}value = K\cdot m\cdot n\cdot e^{-\lambda\cdot S}\tag1\end{equation}

где для одинаковых находок, полученных при указании таксона и всех прочих равных параметрах значения \( K, m, λ, S \) будут одинаковыми, а \(n\) представляет собой размер базы данных. Следовательно имеет место следующее соотношение:

\begin{equation}\frac{E\text{-}value_{viruses}}{E\text{-}value} = \frac{n_{viruses}}{n}\tag2\end{equation}

Взяв значения \( E\text{-}value \) для белка Q008X6 получим долю вирусных белков в Swissprot, равную:

\begin{equation}\frac{n_{viruses}}{n} = \frac{6\cdot 10^{-18}}{1\cdot 10^{-16}} = 0,06\text{ т.е. 6%}\end{equation}