Изучение программы BLAST
Поиск гомологов исследуемого белка
В практикуме 7 я исследовал NAD-киназу Mycobacterium tuberculosis, так что именно ее гомологи и было нужно найти. Для этого я воспользовался программой BLAST. Так как мой белок достаточно распространен, параметры кроме базы данных я не изменял. В качестве базы данных для поиска я выбрал Swiss-Prot. Алгоритм выравнивания поиска - blastp, наибольшее колисчество отображаемых последовательностей - 100, порог по E-value - 0.05, но, зная насколько данный белок распространен предположу, что максимальное E-value среди ста найденных последовательностей и близко не подойдет к 0.05 и наконец длина слова - 5. Матрицей выравнивания была BLOSUM62 со штрафом за открытие инделя - 11 и за продолжение - 1. Поиск я произвел по ID исследуемого белка в UniProt: P9WHV7.
Были получены результаты поиска представленные по ссылке. Как и предполагалось максимальное значение E-value и близко не дошло до порога в 0.05, а значит все белки достаточно гомологичны заданному. Для множественного выавнивания я выбрал шесть первых результатов выравнивания, среди которых был, понятное дело, и белок, по которому происходил поиск, а также последний из ста найденных белков (с максимальным E-value). Выравнивание я проводил программой Muscle с настройками по умолчанию. В выравнивании сильно было заметна разница в гомологии между первыми шестью белками и последним сотым, только в самых консервативных участках (да и то, только в их серединах) последовательность сотого совпадала с остальными шестью. А значит степень его гомологии действительно наименьшая, поэтому я скрыл этот белок из множественного выравнивания. Ссылка на выравнивание.
Поиск гомологов белка, вырезанного из полипротеина
Для изучения я выбрал полипротеин вируса отсрого паралича пчел (OS: Acute bee paralysis virus (strain Rothamsted) (ABPV)) с ID в базе данных UniProt POLN_ABPVR. Его AC - Q9DSN8. Один из белков из этого полипротеина - РНК-зависимая РНК-полимераза, именно ее гомологи я и решил найти. С помощью программы descseq на kodomo я вырезал нужный участок из полипротеина и задал ему имя. Затем подал на вход программе BLAST с такими же параметрами как и в первом пункте. Ссылка на результаты поиска. Было получаено 17 результатов поиска, из которых для множественного выравнивания я отобрал семь первых. Среди находок были полипротеины различных вирусов, включая исходный для последовательности-запроса. Затем я загрузил выбранные последовательности в JalView и дал их на вход программе Muscle с настройками по умолчанию. Получились результаты множественного выравнивания, представленные по ссылке. Как видно, многие части последовательности отличаются между белками, но явно видно несколько островков гомологии, так что думаю вполне можно заключить, что белки гомологичны. Это косвенно подтверждает так же и то, что в каждом из полипротеинов, выбранных для выравнивания по описанию есть РНК-зависимая РНК-полимераза.
Исследование зависимости E-value от объёма банка
В поиске гомологов в прошлом пункте все семнадцать результатов программы бласт были вирусными полипротеинами, так что с результатами поиска по вирусам различий не обнаружилось. Собственно, E-value для исходного полипротеина зрелой РНК-зависимой РНК-полимеразы составило 3⋅10-91 при поиске по вирусам и 6⋅10-90 при поиске по всему Swiss-Prot. По частному этих двух величин (20) можем сделать вывод, что записи о вирусных белках составляют примерно 0.05 всей базы данных Swiss-Prot.