Я считаю, что выровненные белки можно считать гомологичными. Очень много схожих консервативных участков, только С-конец белков имеет значительные отличия (вероятно он не имеет функционального значения).
Гомологи зрелого вирусного белка, вырезанного из полипротеина
Выбрала Gag polyprotein (ID: GAG_FOAMV; AC: P14349; P89871;) из Human spumaretrovirus (SFVcpz(hu)) (Human foamy virus).
В нем выбрала зрелый белок Gag protein с координатами 1-621. Ссылка на файл с последовательностью вырезанного белка.
Команда, которой вырезала нужный белок: descseq 'sw:GAG_FOAMV[1:621]' -outseq Gag_polyprotein_segment.fasta
Далее искала гомологи этого белка с помощью BLAST. Ниже файл с итоговой текстовой выдачей.
Далее в Jalview сделала множественное выравнивание (как в 1 задаче). Множественное выравнивание в Jalview . У белков довольно много похожих участков, по моему мнению они гомологичны.
Исследование зависимости E-value от объёма банка
При применении фильтра по организмам Viruses белки в выдаче не изменились. Чтобы оценить долю вирусных белков в Swiss-Prot сравним изменившиеся E-value одного из гомологов. E-value без применения фильтра: 3е-157, с применением фильтра: 1e-158. 1e-158/3е-157 = 0.03, то есть доля вирусных белков в Swissprot примерно 3% (так как значение E-value прямо пропорционально размеру базы).