На вход была подана последовательность белка DNA gyrase subunit B в формате fasta. Далее я задал параметры поиска:
В результате было найдено 107 последовательностей (текстовая выдача программы). Из них я выбрал следующие 7:
С помощью команды Muscle with Defaults в Jalview я построил множественное выравнивание (проект в Jalview). Данные белки являются гомологами, что следует из высокой идентичности столбцов в выравнивании.
Я выбрал Envelopment polyprotein, выделенный из New York virus (NYV).
Из полипротеина была вырезана последовательность зрелого белка Glycoprotein C с координатами [653:1140] в полипротеине (ссылка на последовательность белка) с помощью команды:
После этого я получил список возможных гомологов данной последовательности в BLAST при тех же парамтрах поиска, что и в задании 1 (текстовая выдача программы). Всего было найдено 22 последовательности, но только у 4 Evalue не равнялся 0. Из четырех белков гомологами с референсным скорее всего являютя P41264.1, Q09120, так как столбцы с позиции 255 по 432 практически не отличаюся друг от друга (ссылка на данное выравнивание) . Другие две последовательности скорее всего не являются гомологами референсой, так как в выравнивании не встречаются длинные идентичные участки (выравнивание белков A6XIP3.1, Q8JSZ3.1).
Список белков, выбранных для выравнивания:
Был повторен поисковой запрос в BlAST для Glycoprotein C с добавлением парамтера Organism: Viruses (taxid:10239). В итоге результат поиска сократился с 22 белков до 21, а значение Evalue для Q09120.1 изменилося с 4e-117 на 1e-115. Через теорему Карлина мы можем выразить долю вирусных белков в Swissprot разделив конечное значение Evalue на начальное. Вычислив, получим, что доля вирусных белков равна 0.04 или 4%.