Программа BLAST

Гомологи белка

Для выполнения задания 1 возьмем белок, используемый в работе практикума 7: CRISPR-associated endonuclease Cas9.

Ниже описаны параметры, которые были использованы при запуске BLAST:

Enter accession number(s), gi(s), or FASTA sequence(s): J3F2B0

Database: UniProtKB/Swiss-Prot(swissprot)

Algorithm: blastp (protein-protein BLAST)

Max target sequences: 100

Short queries: yes

Expect threshold: 0.05

Word size: 6

Matrix: BLOSUM62

Filters and Masking: no

При таких параметрах получили 2 "находки". Их количество зависит от многих факторов, включая поле word size: чем больше значение word size, тем меньше находок. При маленьких значениях этого параметра программа BLAST ищет даже короткие совпадения, которые могут оказаться случайными. Попробуем изменить значение поля word size на 2, получили 8 гомологов анализируемого белка. Скачаем их последовательности в формате FASTA

Текстовая выдача программы

Отобрали 5 белков с идентификаторами: J3F2B0, Q6NKI3, Q9CLT2, A1IQ68, C9X1G5

Для них построили множественное выравнивание с помощью Jalview, получили: Выравнивание в Jalview

Белки с идентификаторами: J3F2B0, Q6NKI3 в достаточной мере отличаются от других по интенсивности окраски, вероятно они не являются гомологичны выбранному белку. По этой причине они были удалены из-за низкой идентичности, остальные сохранены, так как демонстрируют высокую консервативность во многих участках последовательности.

Гомологи зрелого вируса

Запрос (taxonomy_id:2559587) AND (protein_name:polyprotein) в базе данных Swiss-Prot выдал 552,912 результатов, выберем любой аннотированный полипротеин. Пусть это будет полипротеин (AC Q86924, ID POLN_AURAV) вируса Aura virus. Выберем зрелый белок RNA-directed RNA polymerase nsP4 с координатами (1890;2499). Этот белок - неактивный предшественник вирусной репликазы, который активируется в результате расщепления, осуществляемого вирусной протеазой nsP2.

Средствами EMBOSS выберем последовательность зрелого белка с помощью программы seqret: seqret 'sw:POLN_AURAV[1890:2499]' segment.fasta

Далее запустили программу BLAST с такими же параметрами, как в 1 задании, для поиска гомологичных последовательностей. На вход подается вырезанный зрелый белок.

Текстовая выдача программы

Получили 46 находок, выберем 5 белков:

Таблица 1. Характеристика находок
Название белка АС Из какого вируса выделен
POLN_AURAV Q86924 Aura virus (AURAV)
POLN_SINDV P03317 Sindbis virus (SINV)
POLN_SINDO P27283 Sindbis virus subtype Ockelbo (strain Edsbyn 82-5) (OCKV) (Ockelbo virus)
POLN_SFV P08411 Semliki forest virus (SFV)
POLN_SAV1 Q8JJX1 Alphavirus salmon subtype 1 (SAV1) (Salmon pancreas disease virus subtype 1)
POLN_WEEV P13896 Western equine encephalitis virus (WEEV)

Построим множественное выравнивание с помощью Jalview: ссылка

В выравнивании пристуствует достаточно много длинных консервативных участков, высокий процент идентичности (самый длинный блок с identity=100%: (291-315)), практически отсутствуют гэпы. Видно, что белки действительно гомологичны.

Выбранные белки являются РНК-зависимыми РНК-полимеразами (RdRp) и выполняют ключевую роль в репликации вирусного генома. Скорее всего консервативность объясняется функциональными ограничениями. Вирусы сохрняют высокую структурную схожесть POLN, несмотря на различия в патогенности и хозяевах (например, SAV1 инфицирует рыб, WEEV — млекопитающих).

Исследование зависимости E-value от объёма банка

Повторили поиск с теми же параметрами BLAST, за исключением фильтра по организмам. Добавим Viruses в поле Organism.

Список находок не изменился с добавлением нового параметра, но изменились E-value

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Параметры Scientific Name Max Score Total Score Query Cover E-value Per. Ident Accession
Не учитывая фильтр 'Viruses' Brome mosaic virus 64.7 64.7 66% 1е-09 24.80% 822
Учитывая фильтр 'Viruses' Brome mosaic virus 64.7 64.7 66% 5е-11 24.80% 822

Видно, что параметр E-value немного изменился. После фильтрации база данных стала меньше (остались только вирусные последовательности). В меньшей базе данных немного выше вероятность случайно найти похожие участки, поэтому E-value слегка увеличилось. Однако изменение от 1e-09 до 5e-11 несущественно, так как оба значения практически исключают случайность.

Рассмотрев значения E-value нескольких находок c поиском по таксону и без, можно сказать о том, что доля вирусных белков в swiss-prot в среднем от 0,03 до 0,05, то есть примерно 4%. Расчеты проводились по формуле E-value(с учетом таксона)/E-value(без учета таксона).