Программа BLAST

Гомологи белка

Для выполнения задания 1 возьмем белок, используемый в работе практикума 7: CRISPR-associated endonuclease Cas9.

Ниже описаны параметры, которые были использованы при запуске BLAST:

Enter accession number(s), gi(s), or FASTA sequence(s): J3F2B0

Database: UniProtKB/Swiss-Prot(swissprot)

Algorithm: blastp (protein-protein BLAST)

Max target sequences: 100

Short queries: yes

Expect threshold: 0.05

Word size: 6

Matrix: BLOSUM62

Filters and Masking: no

При таких параметрах получили 2 "находки". Их количество зависит от многих факторов, включая поле word size: чем больше значение word size, тем меньше находок. При маленьких значениях этого параметра программа BLAST ищет даже короткие совпадения, которые могут оказаться случайными. Попробуем изменить значение поля word size на 2, получили 8 гомологов анализируемого белка. Скачаем их последовательности в формате FASTA

Текстовая выдача программы

Отобрали 5 белков с идентификаторами: J3F2B0, Q6NKI3, Q9CLT2, A1IQ68, C9X1G5

Для них построили множественное выравнивание с помощью Jalview, получили: Выравнивание в Jalview

Белки с идентификаторами: J3F2B0, Q6NKI3 в достаточной мере отличаются от других по интенсивности окраски, вероятно они не являются гомологичны выбранному белку. По этой причине они были удалены из-за низкой идентичности, остальные сохранены, так как демонстрируют высокую консервативность во многих участках последовательности.

Гомологи зрелого вируса

Запрос (taxonomy_id:2559587) AND (protein_name:polyprotein) в базе данных Swiss-Prot выдал 552,912 результатов, выберем любой аннотированный полипротеин. Пусть это будет полипротеин (AC Q86924, ID POLN_AURAV) вируса Aura virus. Выберем зрелый белок RNA-directed RNA polymerase nsP4 с координатами (1890;2499). Этот белок - неактивный предшественник вирусной репликазы, который активируется в результате расщепления, осуществляемого вирусной протеазой nsP2.

Средствами EMBOSS выберем последовательность зрелого белка с помощью программы seqret: seqret 'sw:POLN_AURAV[1890:2499]' segment.fasta

Далее запустили программу BLAST с такими же параметрами, как в 1 задании, для поиска гомологичных последовательностей. На вход подается вырезанный зрелый белок.

Текстовая выдача программы

Получили 46 находок, выберем 5 белков:

**Таблица 1.** *Характеристика находок*
Название белка	АС	Из какого вируса выделен
POLN_AURAV	Q86924	Aura virus (AURAV)
POLN_SINDV	P03317	Sindbis virus (SINV)
POLN_SINDO	P27283	Sindbis virus subtype Ockelbo (strain Edsbyn 82-5) (OCKV) (Ockelbo virus)
POLN_SFV	P08411	Semliki forest virus (SFV)
POLN_SAV1	Q8JJX1	Alphavirus salmon subtype 1 (SAV1) (Salmon pancreas disease virus subtype 1)
POLN_WEEV	P13896	Western equine encephalitis virus (WEEV)

Построим множественное выравнивание с помощью Jalview: ссылка

В выравнивании пристуствует достаточно много длинных консервативных участков, высокий процент идентичности (самый длинный блок с identity=100%: (291-315)), практически отсутствуют гэпы. Видно, что белки действительно гомологичны.

Выбранные белки являются РНК-зависимыми РНК-полимеразами (RdRp) и выполняют ключевую роль в репликации вирусного генома. Скорее всего консервативность объясняется функциональными ограничениями. Вирусы сохрняют высокую структурную схожесть POLN, несмотря на различия в патогенности и хозяевах (например, SAV1 инфицирует рыб, WEEV — млекопитающих).

Исследование зависимости E-value от объёма банка

Повторили поиск с теми же параметрами BLAST, за исключением фильтра по организмам. Добавим Viruses в поле Organism.

Список находок не изменился с добавлением нового параметра, но изменились E-value

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков

Параметры	Scientific Name	Max Score	Total Score	Query Cover	E-value	Per. Ident	Accession
Не учитывая фильтр 'Viruses'	Brome mosaic virus	64.7	64.7	66%	1е-09	24.80%	822
Учитывая фильтр 'Viruses'	Brome mosaic virus	64.7	64.7	66%	5е-11	24.80%	822

Видно, что параметр E-value немного изменился. После фильтрации база данных стала меньше (остались только вирусные последовательности). В меньшей базе данных немного выше вероятность случайно найти похожие участки, поэтому E-value слегка увеличилось. Однако изменение от 1e-09 до 5e-11 несущественно, так как оба значения практически исключают случайность.

Рассмотрев значения E-value нескольких находок c поиском по таксону и без, можно сказать о том, что доля вирусных белков в swiss-prot в среднем от 0,03 до 0,05, то есть примерно 4%. Расчеты проводились по формуле E-value(с учетом таксона)/E-value(без учета таксона).