На сайте NCBI сделал запрос на Protein BLAST со следующими параметрами: база данных Swiss-Prot, blastp (protein-protein BLAST) алгоритм, word size 6 (меньше не ставил, т.к. даже так было больше сотни находок), увеличил максимальное число выдаваемых последовательностей до 250, матрица BLOSUM62
В итоге находок было больше 250-ти. Думаю, из-за того, что белок является важным ферментом в метаболизме, он весьма консервативен и этим объясняется такое большое количество последовательностей в выдаче.
Сохранил первые 100 последовательностей из выдачи как текстовый файл, с которым можно ознакомиться здесь
Список по умолчанию отсортирован по возрастанию E-value, скачал их в fasta формате, выбрал 6 находок из разных организмов.
Запустил множественное выравнивание в Jalview (Muscle with defaults)
Проект с выравниванием можно открыть здесь
Считаю, что все белки гомологичны, т.к. у них есть много участков сходства (36-41, 97-100, 147-157).
Выбрал Replicase polyprotein 1a (ID:R1A_BCHK3 AC:P0C6F8 название вируса: Bat coronavirus HKU3)
Среди белков, на которые разрезается полипротеин, я взял Peptidase C30 (координаты 3235-3540), при помощи seqret вырезать не удалось, даже скачивая файл на kodomo, пришлось вырезать используя команду cut, это тоже не удалось, в итоге просто в ворде по количеству символов сделал, fasta файл
Нашлось 58 последовательностей, выбрал такие шесть, чтобы E-value не был совсем мал (0.0)
Jalview проект с выравниванием
От применения фильтра выдача не изменилась, потому что белок характерен для вирусов. Для белка с AC P0C6T5.1 после применения фильтра E-value изменилось с 4e-97 до 2e-98. E-value по определению это ожидаемое количество случайных находок с таким же и лучшим весом выравнивания, при поиске в той же базе данных, со случайным запросом той же длины и состава, с теми же параметрами на вычисление веса выравнивания, а так как ничего не изменилось, кроме того, что база данных, по которой производиться поиск, "уменьшилась" в двадцать раз, то можно предположить что, вирусные белки составляют примерно 5% от общего числа белков.
Посмотреть текстовую выдачу без фильтра , с фильтром