Программа BLAST
Гомологи белка
Для выполнения задания 1 возьмем белок, используемый в работе практикума 7: CRISPR-associated endonuclease Cas9.
Ниже описаны параметры, которые были использованы при запуске BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): J3F2B0
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Short queries: yes
Expect threshold: 0.05
Word size: 6
Matrix: BLOSUM62
Filters and Masking: no
При таких параметрах получили 2 "находки". Их количество зависит от многих факторов, включая поле word size: чем больше значение word size, тем меньше находок. При маленьких значениях этого параметра программа BLAST ищет даже короткие совпадения, которые могут оказаться случайными. Попробуем изменить значение поля word size на 2, получили 8 гомологов анализируемого белка. Скачаем их последовательности в формате FASTA
Отобрали 5 белков с идентификаторами: J3F2B0, Q6NKI3, Q9CLT2, A1IQ68, C9X1G5
Для них построили множественное выравнивание с помощью Jalview, получили: Выравнивание в Jalview
Белки с идентификаторами: J3F2B0, Q6NKI3 в достаточной мере отличаются от других по интенсивности окраски, вероятно они не являются гомологичны выбранному белку. По этой причине они были удалены из-за низкой идентичности, остальные сохранены, так как демонстрируют высокую консервативность во многих участках последовательности.
Гомологи зрелого вируса
Запрос (taxonomy_id:2559587) AND (protein_name:polyprotein) в базе данных Swiss-Prot выдал 552,912 результатов, выберем любой аннотированный полипротеин. Пусть это будет полипротеин (AC Q86924, ID POLN_AURAV) вируса Aura virus. Выберем зрелый белок RNA-directed RNA polymerase nsP4 с координатами (1890;2499). Этот белок - неактивный предшественник вирусной репликазы, который активируется в результате расщепления, осуществляемого вирусной протеазой nsP2.
Средствами EMBOSS выберем последовательность зрелого белка с помощью программы seqret: seqret 'sw:POLN_AURAV[1890:2499]' segment.fasta
Далее запустили программу BLAST с такими же параметрами, как в 1 задании, для поиска гомологичных последовательностей. На вход подается вырезанный зрелый белок.
Получили 46 находок, выберем 5 белков:
Построим множественное выравнивание с помощью Jalview: ссылка В выравнивании пристуствует достаточно много длинных консервативных участков, высокий процент идентичности (самый длинный блок с identity=100%: (291-315)), практически отсутствуют гэпы. Видно, что белки действительно гомологичны. Выбранные белки являются РНК-зависимыми РНК-полимеразами (RdRp) и выполняют ключевую роль в репликации вирусного генома. Скорее всего консервативность объясняется функциональными ограничениями. Вирусы сохрняют высокую структурную схожесть POLN, несмотря на различия в патогенности и хозяевах (например, SAV1 инфицирует рыб, WEEV — млекопитающих). Повторили поиск с теми же параметрами BLAST, за исключением фильтра по организмам. Добавим Viruses в поле Organism. Список находок не изменился с добавлением нового параметра, но изменились E-value Видно, что параметр E-value немного изменился. После фильтрации база данных стала меньше (остались только вирусные последовательности). В меньшей базе данных немного выше вероятность случайно найти похожие участки, поэтому E-value слегка увеличилось. Однако изменение от 1e-09 до 5e-11 несущественно, так как оба значения практически исключают случайность. Рассмотрев значения E-value нескольких находок c поиском по таксону и без, можно сказать о том, что доля вирусных белков в swiss-prot в среднем от 0,03 до 0,05, то есть примерно 4%. Расчеты проводились по формуле E-value(с учетом таксона)/E-value(без учета таксона).
Название белка
АС
Из какого вируса выделен
POLN_AURAV
Q86924
Aura virus (AURAV)
POLN_SINDV
P03317
Sindbis virus (SINV)
POLN_SINDO
P27283
Sindbis virus subtype Ockelbo (strain Edsbyn 82-5) (OCKV) (Ockelbo virus)
POLN_SFV
P08411
Semliki forest virus (SFV)
POLN_SAV1
Q8JJX1
Alphavirus salmon subtype 1 (SAV1) (Salmon pancreas disease virus subtype 1)
POLN_WEEV
P13896
Western equine encephalitis virus (WEEV)
Исследование зависимости E-value от объёма банка
Параметры
Scientific Name
Max Score
Total Score
Query Cover
E-value
Per. Ident
Accession
Не учитывая фильтр 'Viruses'
Brome mosaic virus
64.7
64.7
66%
1е-09
24.80%
822
Учитывая фильтр 'Viruses'
Brome mosaic virus
64.7
64.7
66%
5е-11
24.80%
822