Практикум 10

BLAST

Задание 1

Единственные параметры BLAST, который я поменял — база данных (SwissProt) и количество находок в выдаче, потому что их было больше 100 (229 находок). Остальные параметры оставил дефолтными: порог E-value — 0,05, длина слова — 5 (при длине слова 3 первые 100 находок не отличаются), матрица замен — BLOSUM62, штрафы за гэпы — 11/1 и т. д. Текстовая выдача в файле.

Для множественного выравнивания я взял три первых и три последних белка из выдачи BLAST (AC: Q6LU02.1, B7VJ96.1, Q87RT6.1, Q83CD9.1, O28105.1, D3RPB9.1). Мне кажется, что последний белок в выдаче (D3RPB9) может оказаться негомологичным остальным, потому что он гораздо короче, выровнялся с огромными инделями и аминокислот, консервативных для всех семи белков, включая последний, почти нет (их всего две). Я удалил этот белок из выравнивания и выровнял оставшиеся белки заново. Оставшиеся белки кажутся мне гомологичными: у них довольно много консервативных блоков по всей длине (проект Jalview).

Задание 2

Я выбрал полипротеин ретровируса коалы. AC: Q9TTC2, ID: GAG_KORV, OS: Koala retrovirus (KoRV). Из него — Matrix protein p15, 2–128 аминокислотные остатки (fasta-файл). При поиске с помощью BLAST выбрал длину слова 3, остальные параметры не менял. Нашлось 60 белков (выдача). Как и в задании 1, в выравнивание взял по три белка из начала и конца выдачи. Последние два белка в выдаче — какие-то белки иммунитета человека и орангутана. E-value этих находок достаточно низкое, порядка 10−6–10−5, в выравнивании много консервативных остатков, да и поверить в происхождение белоков млекопитающих от белков ретровирусов несложно, поэтому я оставил их в выравнивании (проект Jalview).

Задание 3

При поиске по вирусным последовательностям из SwissProt нашлось 58 белков. Для всех этих находок я нашел по AC соответствующую находку в выдаче для поиска по всему SwissProt, поделил E-value и усреднил значение. Получилось 4,17 %.