Параметры BLAST:
Для выравнивания были выбраны белки с id: Q9A3P3.1, Q7VVJ8.1, Q89SC0.1, P73667.1, Q7V9H9.1. Из итогового файла были удалены белки с id: Q7VVJ8.1, P73667.1, так как они выровнялись значительно хуже остальных. У остальных идентичность выше 20%, поэтому их можно считать гомологичными.
Ссылка на файл jvp с выравниваниемПоисковый запрос в UniProt: name:polyprotein taxonomy:"Viruses [10239]". Был выбран полипротеин P1234 длиной 2513 аминокислот из вируса Sindbis virus (SINV) с ID: POLN_SINDV, AC: P03317; Q87644. Для дальнейшего анализа был выбран белок Protease nsP2 (протеаза nsP2), с координатами: 1348 - 1903. Файл в формате fasta был создан командой:
seqret sw:POLN_SINDV[1348:1903]
Ссылка на файл с последовательностью белка
Параметры BLAST:
Для выравнивания были выбраны белки с id: P27283.2, Q8JUX6.1, P13886.2, Q9JGL0.3, P33424.2. Выравнивания были обрезаны по номерам а.к. на которые выровнялись крайние буквы исходного белка. Из итогового файла был удален белок с id: QP33424.2, так как он выровнялся значительно хуже остальных. У остальных идентичность выше 20%, поэтому их можно считать гомологичными. При этом большая часть идентичных участков находится в первой половине последовательностей белков.
Ссылка на файл jvp с выравниваниемПоиском без фильтра по организмам было найдено 77 результатов, поиском с фильтром по значению viruses было найдено 46 результатов. Среди результатов работы программы BLASTP без фильтра по организмам и с фильтром по значению viruses был выбран белок Non-structural polyprotein pORF вируса птичьего гепатита E. Его E-value в первом случае равно 10-6, а во втором 5*10-8. При наличии фильтра E-value уменьшилось в 20 раз. E-value прямо пропорционально размеру базы данных, при этом эти запросы не отличаются по другим параметрам, из чего можно сделать вывод, о том, что вирусные белки составляют примерно одну двадцатую часть базы Swissprot.