В практикуме 7 я изучала белок с UniProt ID A0A810PYL2_9FIRM. При запуске BLAST я задала следующие параметры:
Параметр | Значение |
Database | swissprot |
Max target sequences | 5000 |
Expect threshold | 0.05 |
Word size | 5 |
Matrix | BLOSUM62 |
Gap Costs | Existence: 11 Extension: 1 |
Табл. 1. Параметры при запуске BLAST
С такими настройками было найдено 564 последовательности. Я взяла 6 белков, включая исследуемый (A0A810PYL2_9FIRM, MURE_CLOBH, MURE_ALKOO, MURE_BACLD, MURE_HALH5, MURE_LISMF) и построила множественное выравнивание с помощью инструментов Jalview.
Судя по полученным результатам, все выбранные белки гомологичны, так как они имеют много консервативных участков (например, 108-121, 179-194, 311-331).
Я выбрала полипротеин с Uniprot ID GP_NYV, AC - Q83887, принадлежащий вирусу New York virus (NYV). Из зрелых белков, на которые разделяется полипротеин, я остановилась на Glycoprotein C с координатами 653..1140 и вырезала его с помощью команды “seqret 'sw:gp_nyv[653:1140]' segment.fasta” на kodomo: последовательность зрелого белка.
Я подала вырезанный зрелый белок на вход BLAST, оставив остальные параметры такими же, как в п. 1, и получила 22 результата (включая исходную цепь). Я сделала выравнивание исходного белка (GP_NYV) и 5 белков из полученных в BLAST: GP_SINV, GP_ANDV, GP_HANTV, GP_PUUMB, GP_PUUMU.
Белки гомологичны, так как имеют много консервативных участков (например, 173-196, 250-286).
Я повторила поиск из п. 2, оставив те же параметры BLAST, но применила фильтр по организмам, ограничив поиск вирусами (Viruses). Были найдены те же 22 последовательности, однако их E-value уменьшилось (за исключением тех находок, для которых оно изначально было равно 0). У белка Envelope glycoprotein, принадлежащего штамму berkel вируса Puumala virus E-value изменилось с 1*10-159 на 5*10-161, то есть уменьшилось в 20 раз. Из этого можно сделать вывод, что доля вирусных белков в Swiss-Prot – примерно 5%.