Практикум 10: программа BLAST

Гомологи белка в Swiss-Prot

Мой белок в пракикуме 7 - RL27_MYCS2. Поисковой запрос выдал 250, а позже 500 посдедовательностей в базе Swiss-Prot, но отбраны для множественного выравнивания были пять последовательностей по принципу наибольшего процента постоянной идентификации (Persent identify в таблице выдачи программы BLAST). Далее было проведено множественное выравниванеи в программе Jalview, ссылка на результаты которого находится ниже. Выравнивание получилось консервативным на многих участках. Некоторые отличия можно наблюдать только ближе к концу последовательностей. Последовательности гомологичны.

Поисковой запрос в BLAST
Проект Jalview

Гомологи зрелого вирусного белка, вырезанного из полипротеина, в Swiss-Prot

В качестве исследуемого белка был взят белок IDGP_HTRV вируса Хартленда. AC:J3WAX0. Название зрелого белка:"Glycoprotein N", расположен с 19 по 566 ак последовательности. С помощью команды seqret 'sw:GP_HTRV[19:566]' segment.fasta была получена часть полипептида. Данная последовательность была загружена на сайт BLAST при техже параметрах, что и в п.1. В выдаче было 4 последовательности. Для выравнивания были взяты все из них. Далее в Jalview было выполнено множественное выравнивание и отредактировано по длине исследуемого белка.

Проект Jalview

Поисковой запрос в BLAST

Файл с последовательностью зрелого белка

Исследование зависимости E-value от объёма банка

Для оценки доли вирусных белков в Swiss-Prot было проведено два запроса в BLAST, в одном из которых стояло ограничения по поиску только среди вирусов. У последней последовательности E-value отличается (количество последовательностей не изменилось - так же 4). E-value изменился от 2*10-32 на 7*10-34. Теорема С. Карлина связывает длину исходной последовательности и размер базы данных (как суммарная длина всех последовательностей) через константы. Из этой теоремы следует, что доля вирусных белков в БД будет равна отношению E-value с ограничением/E-value по всем, то есть для данного белка L7V0S7.1 в Swiss-Prot доля вирусных белков составляет 2*10-32 / 7*10-34, то есть 0,035 или 3,5%.