Программа BLAST
Гомологи белка
Для выполнения задания 1 возьмем белок, используемый в работе практикума 7: CRISPR-associated endonuclease Cas9.
Ниже описаны параметры, которые были использованы при запуске BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): J3F2B0
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Short queries: yes
Expect threshold: 0.05
Word size: 6
Matrix: BLOSUM62
Filters and Masking: no
При таких параметрах получили 2 "находки". Их количество зависит от многих факторов, включая поле word size: чем больше значение word size, тем меньше находок. При маленьких значениях этого параметра программа BLAST ищет даже короткие совпадения, которые могут оказаться случайными. Попробуем изменить значение поля word size на 2, получили 8 гомологов анализируемого белка. Скачаем их последовательности в формате FASTA
Отобрали 5 белков с идентификаторами: J3F2B0, Q6NKI3, Q9CLT2, A1IQ68, C9X1G5
Для них построили множественное выравнивание с помощью Jalview, получили: Выравнивание в Jalview
Белки с идентификаторами: J3F2B0, Q6NKI3 в достаточной мере отличаются от других по интенсивности окраски, вероятно они не являются гомологичны выбранному белку. По этой причине они были удалены из-за низкой идентичности, остальные сохранены, так как демонстрируют высокую консервативность во многих участках последовательности.
Гомологи зрелого вируса
Запрос (taxonomy_id:2559587) AND (protein_name:polyprotein) в базе данных Swiss-Prot выдал 552,912 результатов, выберем любой аннотированный полипротеин. Пусть это будет полипротеин (AC Q86924, ID POLN_AURAV) вируса Aura virus. Выберем зрелый белок RNA-directed RNA polymerase nsP4 с координатами (1890;2499). Этот белок - неактивный предшественник вирусной репликазы, который активируется в результате расщепления, осуществляемого вирусной протеазой nsP2.
Средствами EMBOSS выберем последовательность зрелого белка с помощью программы seqret: seqret 'sw:POLN_AURAV[1890:2499]' segment.fasta
Далее запустили программу BLAST с такими же параметрами, как в 1 задании, для поиска гомологичных последовательностей. На вход подается вырезанный зрелый белок.
Получили 46 находок, выберем 5 белков:
| Название белка | АС | Из какого вируса выделен |
|---|---|---|
| POLN_AURAV | Q86924 | Aura virus (AURAV) |
| POLN_SINDV | P03317 | Sindbis virus (SINV) |
| POLN_SINDO | P27283 | Sindbis virus subtype Ockelbo (strain Edsbyn 82-5) (OCKV) (Ockelbo virus) |
| POLN_SFV | P08411 | Semliki forest virus (SFV) |
| POLN_SAV1 | Q8JJX1 | Alphavirus salmon subtype 1 (SAV1) (Salmon pancreas disease virus subtype 1) |
| POLN_WEEV | P13896 | Western equine encephalitis virus (WEEV) |
Построим множественное выравнивание с помощью Jalview: ссылка
В выравнивании пристуствует достаточно много длинных консервативных участков, высокий процент идентичности (самый длинный блок с identity=100%: (291-315)), практически отсутствуют гэпы. Видно, что белки действительно гомологичны.
Выбранные белки являются РНК-зависимыми РНК-полимеразами (RdRp) и выполняют ключевую роль в репликации вирусного генома. Скорее всего консервативность объясняется функциональными ограничениями. Вирусы сохрняют высокую структурную схожесть POLN, несмотря на различия в патогенности и хозяевах (например, SAV1 инфицирует рыб, WEEV — млекопитающих).
Исследование зависимости E-value от объёма банка
Повторили поиск с теми же параметрами BLAST, за исключением фильтра по организмам. Добавим Viruses в поле Organism.
Список находок не изменился с добавлением нового параметра, но изменились E-value
| Параметры | Scientific Name | Max Score | Total Score | Query Cover | E-value | Per. Ident | Accession |
|---|---|---|---|---|---|---|---|
| Не учитывая фильтр 'Viruses' | Brome mosaic virus | 64.7 | 64.7 | 66% | 1е-09 | 24.80% | 822 |
| Учитывая фильтр 'Viruses' | Brome mosaic virus | 64.7 | 64.7 | 66% | 5е-11 | 24.80% | 822 |
Видно, что параметр E-value немного изменился. После фильтрации база данных стала меньше (остались только вирусные последовательности). В меньшей базе данных немного выше вероятность случайно найти похожие участки, поэтому E-value слегка увеличилось. Однако изменение от 1e-09 до 5e-11 несущественно, так как оба значения практически исключают случайность.
Рассмотрев значения E-value нескольких находок c поиском по таксону и без, можно сказать о том, что доля вирусных белков в swiss-prot в среднем от 0,03 до 0,05, то есть примерно 4%. Расчеты проводились по формуле E-value(с учетом таксона)/E-value(без учета таксона).