учебная страница панькиной вари

Практикум 10. BLAST

1. Поиск гомологов и выравнивание

Изначально выбранный белок для практикума 7 - SusD, однако для него BLAST выдает лишь 2 находки, и то приуменьшении шага до 2, так что было принято решение проверить другие белки по выдаче из запроса из п 1 практикума 7. В итоге я выбрала белок PIDHC_BACTN, Phosphoinositol dihydroceramide synthase, катализирует присоединение фосфорилинозитольной группы к дигидроцерамиду с образованием фосфоинозитолдигидроцерамида (PI-DHC), что является важным этапом в биосинтезе сфинголипидов.

При запуске программы были использованы следующие параметры (не отличающиеся от стандартных):

Текстовая выдача работы программы представлена в тестовом файле.

При выравнивании в JalView один из белков из выдачи, Inositolphosphotransferase 1 P38954.2 из Saccharamices cerevisea, имеет значительную длину и очень большое e-value. При множестенном выравнивании без этого белка все остальные белки хорошо выравниваются (гиперссылка на проект), их можно назвать гомологичными.

2. Гомологи зрелого белка из полипротеина

Запрос в Uniprot: (taxonomy_id:11050) AND (protein_name:polyprotein) AND (reviewed:true). Я выбрала полипротеин вируса Японского энцефалита вируса:
ID: POLS_JAEVM,
AC: P0DOK8,
OC: Japanese encephalitis virus (strain M28) (JEV). Я выбрала белок Small envelope protein M с координатами 220..294 аминокислотный остаток. Используя команду seqret в EMBOSS я получила FASTA-файл со зрелым белком. Подав этот запрос в BLAST я получила 67 находок. Выбрав 7 из них я выровняла их посредстовм MUSCLE with Defolts в JalView Web Service. Тк находки Blast представляют собой полипротеины, то для загрузки в JalView я использовала FASTA (aligned sequencies). Гиперссылка на проект, изображение выравнивания ниже.

Выравнивание семи гомологичных белков в Muscle с исследуемым белком.

3. Исследование e-value

При фильтрации по организмам (Viruses) список находок не изменился, однако изменилость e-value, причем почти для всех находок, она стала на несоклько порядков ниже, что свидетельсвует о большей "уникальности" находок в датабазе с меньшим размером (вероятность случайно найти ту же последовательность меньше).

Исходя из формулы e-value мы можем оценить долю вирусных белков в базе данных swiss prot, разделив e-val из запроса с фильтром на организм из запроса без фильтра. Мы получили различие на 2 порядка в пользу поиска без филтра на организмы, то есть можно заключить, что доля вирусных белков в базе SwissProt составляет около 1% от всех записей.