Для белка с идентификатором INSDC CDS CAC41944.1 (АДФ-полифосфат фосфотрансфераза 1) я по AC Swiss-Prot (Q92SA6) запустил программу BLAST для поиска гомологичных белков.
Параметры BLAST, которые были использованы:
Далее я выбрал 5 находок с наименьшим E-value (за исключением самого белка) и сделал множественное выравнивание.
Ссылка на проект JalviewЯ думаю, что все выровненные белки гомологичны, т.к. у них есть участки очень большого сходства (например, участок 125-135, полносью одинаковый у всех 6 организмов).
Я выбрал полипротеин с ID POLN_SFV и AC P08411 организма Semliki forest virus (SFV).
Далее я выбрал белок RNA-directed RNA polymerase nsP4 (РНК-зависимая РНК-полимераза nsP4), с координатами 1819-2431.
Ссылка на последовательность белка в формате fastaПосле этого я сделал то же самое, что и в задании 1 (BLAST, отобрал 5 наилучших находок, множественное выравнивание).
Ссылка на текстовую выдачу программы Ссылка на проект JalviewПосле повторного поиска было найдено столько же белков (35), это связано с тем, что РНК-зависимые РНК-полимеразы встречаются только у вирусов, а также с тем, что они высококонсервативны (уменьшение размера базы даных не добавило новых белков, для который E-value по всему Swiss-Prot был больше 0.05).
Белок Replicase large subunit (большая субъединица репликазы) организма Youcai mosaic virus изменил свой E-value с 1e-12 до 6e-14, то есть, E-value уменьшился в 16,67 раз. Т.к. E-value находится в прямой линейной зависимости от размера базы данных, база данных тоже уменьшилась в 16,67 раз, значит вирусных белков в Swiss-Prot 6%.