Практикум 13

Поиск гомологов белка HGDC_ACIFV

Поиск происходил с помощью blastp в базе данных Swiss-Prot без указания организма. Максимальное количество последовательностей - 100, порог на E-value - 0.05, длина слова - 6, матрица - BLOSUM62, штраф за индель - 11, штраф за удлинение инделя - 1.

Выдача в текстовом формате Выравнивание

Белок BCRA_THAAR имеет много инделей по сравнению с остальными белками в выравнивании, поэтому я исключил его из выравнивания. Оставшиеся последовательности имеют много совпадающих фрагментов и синонимичных замен. Кроме того, они имеют сходные функции. YUJIL_ECOLI - неохарактеризованный белок, но принадлежащий бактерии, что может говорить в пользу его гомологичности.

Выравнивание после редактирования

Гомологи вирусного белка, вырезанного из полипротеина

ID POLN_SINDV; AC P03317; OS Sindbis virus (SINV). RNA-directed RNA polymerase nsP4 (1904..2513)

Параметры поиска такие же, как в предыдущем пункте.

Выдача в текстовом формате Выравнивание

Зависимость E-value от объема банка

При добавлении фильтра на вирусы первое заметное изменение E-value было у RDRP_YOMV с 6е-12 на 2е-13. Подставляя имеющиеся данные в формулу

E-value=Kmn·e-λS

S – Score (вес) =const

m – длина исходной последовательности =const

n – размер базы данных (суммарная длина всех последовательностей)

K и λ – две константы не меняются, так как параметры вычисления одинаковые

получим

6е-12/2е-13=ngen/nvir

отсюда следует, что доля вирусных белков в SwissProt равна 1/30, или 3.33%.