1. Поиск гомологов и выравнивание
Изначально выбранный белок для практикума 7 - SusD, однако для него BLAST выдает лишь 2 находки, и то приуменьшении шага до 2,
так что было принято решение проверить другие белки по выдаче из запроса из п 1 практикума 7. В итоге я выбрала белок PIDHC_BACTN,
Phosphoinositol dihydroceramide synthase, катализирует присоединение фосфорилинозитольной группы к дигидроцерамиду с образованием
фосфоинозитолдигидроцерамида (PI-DHC), что является важным этапом в биосинтезе сфинголипидов.
При запуске программы были использованы следующие параметры (не отличающиеся от стандартных):
Текстовая выдача работы программы представлена в тестовом файле.
При выравнивании в JalView один из белков из выдачи, Inositolphosphotransferase 1 P38954.2 из Saccharamices cerevisea, имеет значительную длину и очень большое e-value. При множестенном выравнивании без этого белка все остальные белки хорошо выравниваются (гиперссылка на проект), их можно назвать гомологичными.
2. Гомологи зрелого белка из полипротеина
Запрос в Uniprot: (taxonomy_id:11050) AND (protein_name:polyprotein) AND (reviewed:true).
Я выбрала полипротеин вируса Японского энцефалита вируса:
ID: POLS_JAEVM,
AC: P0DOK8,
OC: Japanese encephalitis virus (strain M28) (JEV).
Я выбрала белок Small envelope protein M с координатами 220..294 аминокислотный остаток.
Используя команду seqret в EMBOSS я получила FASTA-файл со зрелым белком. Подав этот запрос в BLAST я получила 67 находок.
Выбрав 7 из них я выровняла их посредстовм MUSCLE with Defolts в JalView Web Service. Тк находки Blast представляют собой полипротеины, то для загрузки в JalView я использовала
FASTA (aligned sequencies). Гиперссылка на проект, изображение выравнивания ниже.
3. Исследование e-value
При фильтрации по организмам (Viruses) список находок не изменился, однако изменилость e-value, причем почти для всех находок, она стала на несоклько порядков ниже, что свидетельсвует о большей "уникальности" находок в датабазе с меньшим размером (вероятность случайно найти ту же последовательность меньше).
Исходя из формулы e-value мы можем оценить долю вирусных белков в базе данных swiss prot, разделив e-val из запроса с фильтром на организм из запроса без фильтра. Мы получили различие на 2 порядка в пользу поиска без филтра на организмы, то есть можно заключить, что доля вирусных белков в базе SwissProt составляет около 1% от всех записей.