Это задание выполнялось с помощью сайта NCBI: https://blast.ncbi.nlm.nih.gov/
Необходимо было найти гомологичные белки. Именно для выполнения этой цели мне пришлось воспользоваться BLAST.
Параметры, которые я использовал для поиска гомологов белка из 3 практикума:
Так как результат выполнения хранится ограниченное количество времени, я скачал его в виде текстового файла:
Ссылка на результат работы программы (.txt)
Я взял 6 первых найденных белков и выровнял их как в прошлом практикуме. Ссылка на проект
Для того, чтобы определить гомологичные белки построим дерево на основании множественного выравнивания:
Да данном дереве AFVA_ASPFN отделён от других белков. Это связано с тем, что у него имеется инсерция (вставка), хотя также можно полагать, что у общего предка
организмов, чьи белки мы рассматриваем (за исключением AFVA_ASPFN), произошла делеция. Возможно это связано и с какими-то другими процессами, но всё же, с высокой
вероятностью AFVA_ASPFN гомологичен с другими белками (очень сильное сходство на протяжении всей последовательности, что с очень высокой вероятностью не может являться случайностью)
2. Поиск в Swissprot гомологов последовательности зрелого вирусного белка
3. Исследование зависимости E-value от объёма банка
В задании необходимо было произвести предыдущий поиск, но только по вирусам. Так как E-value прямо пропорционально размеру базы данных
мы можем рассчитать доль вирусных белков в Swiss-Prot. Для этого необходимо поделить E-value при поиске с фильтром, на E-value без фильтра.
Я взял 4 пары белков и везде получил значение, равное 0,04 или 4%. Следовательно, доля вирусных белков в Swiss-prot равна 4%.