Далее в списке указаны только измененные настройки. Остальные были применены по умолчанию.
Выбраны для сравнения с исходным флавогемопротеином 7 из полученного результата BLASTP (далее приведены название организма и ID белка в UniProtKB без исходного):
Выравнивание в Jalview формате
Выбран полипротеин Influenza C virus (strain C/Ann Arbor/1/1950) Q6I7B9 - MAT_INCAA
Выбран зрелый белок с координатами [1; 259] - Protein M1 - Q6I7B9.2
Изменённые настройки поиска в BLASTP:
Далее в списке приведены название штамма Influenza C virus и ID белка в UniProtKB (включая исходный):
Выравнивание в Jalview формате
При тех же настройках, но с ограничением поиска в графе таксона (Viruses/viruses) другого результата не было получено. В результате абсолютно такие же 5 находок с теми же значениями E-value (машинный ноль).
Для выполнения данного задания выбрал другой вирус (Cryphonectria hypovirus 1 (strain EP713) (CHV-1/EP713) (Chestnut blight fungus hypovirulence-associated virus)), полипротеин (P10941 - POLA_CHPVE) и зрелый белок (1..248 Papain-like protease p29).
Выдача без ограничений; выдача, ограниченная вирусами.
В выдаче с ограничением значение E-value выше. Для одного и того же белка E-value с ограничением - 1e-166, без - 2e-165
Разница между значениями E-value в 20 раз. По теореме С. Карлина значение E-value прямо пропорционально размеру базы, значит при прочих равных условиях отношение баз данных равно отношению соответствующих значений E-value. Тогда доля вирусных белков в базе Swiss-Prot примерно равна 5 %.