Последовательность белка была найдена Uniprot, скопирована и добавлена в BLASTp.Параметры при запуске BLAST:
1) База данных: UniprotKB/Swiss-Prot (swissprot).
2) Алгоритм: blastp (protein-protein BLAST).
3) Максимальное число отображаемых последовательностей: 100.
4) Порог E-valuе: 0.05 - ожидаемое число выравниваний с таким же или большим весом.
5) Размер слова: 5.
6) Матрица: BLOSUM62.
7) Цена гэпов: открытие 11, продолжение: 1.
Был создан fasta-файл с 8 (7 найденных с помощью blastp, и исходный белок) последовательностями, выполнено множественное выравнивание и загружено в Jalview. Все белки оказались гомологичны исходному. В выращивании есть некоторое количество консервативных блоков, белки имеют схожую длину, высокий уровень консервативности выравнивания - все это говорит о гомологичности. Несмотря на то, что последовательности сильно отличаются, в колонках аминокислоты принадлежат к одной группе по свойствам - это также признак гомологичности.
На сайте Uniprot был найден вирусный полипротеин, его ID - POLN_AURAV, AC - Q86924, название вируса - Aura virus (AURAV).
Белок, содержащийся в полипротеине (найден в поле FT, ключе CHAIN): mRNA-capping enzyme nsP1, его координаты: 1-539.
Для получения последовательности этого белка был создан файл fragment.usa:
sw:POLN_AURAV[1:539]
И выполнен поиск с помощью команды:
seqret @fragment.usa stdout -osformat ncbi
Последовательность зрелого белка.
Параметры выравнивания такие же, как в предыдущем упражнении.
Все белки оказались гомологичны исходному. В выравнивании есть некоторое количество консервативных блоков, высокий уровень консервативности - все это говорит о гомологичности. Последовательности сильно похожи, аминокислоты большей части блоков одинаковы.
В выравнивании были удалены блоки, стоящие после последней аминокислоты исходного белка.
1) Поиск в blastp без выбора таксона:
2) Поиск в blastp по таксону Viruses:
Список находок не изменился. Поменялись только значения Е-value у последних двух находок.
E-value при поиске в таксоне Viruses: 2e-126, в исходном поиске: 5e-125.
E-value пропорционален размеру базы данных, значит, отношение E-value равно отношению размеров баз данных.
Путём сравнения значений E-value этой находки в двух поисках оценим долю вирусных белков в Swiss-Prot. 5e-125/2e-126 = 25. Значит, Swiss-Prot в 25 раз больше базы данных Swiss-Prot, относящейся к вирусам. Доля вирусных белков равна 1/25 или 4%.