Программа BLAST

Поиск гомологов ванилат/3-О-метилгалат-О-деметилазы

Был проведён поиск гомологов с помощью программы BLAST на сайте NCBI. Для большинства параметров поиска были оставлены значения по умолчанию:

Была изменена база данных, по которой осуществлялся поиск, на Swiss-Prot. C текстовой выдачей запроса можно ознакомиться по ссылке.

Всего было обнаружено 38 находок, включая исходную последовательность. Среди них было отобрано 7 и проведено множественное выранивание с помощью программы muscle. Результат выравнивания можно посмотреть здесь

Думаю, что все выбранные белки являются гомологами, так как есть довольно много сходных участков (например, колонки 75-82, 173-186, 242-269, 320-343). Но хотелось бы отметить, выровненные белки первых трёх находок более сходны между собой, а остальные четыре — между собой, так как во второй группе присутствуют одинаковые, очень длинные индели по отношению к белкам первой группы. Это несколько неожиданно, так как систематическое положение организмов с этими белками близко.

Поиск гомологов зрелого вирусного белка

В Swiss-Prot был выбран репликативный полипротеин вируса лошадиного артериита (ID: RPOA_EAVBU; AC: P19811, Q88625, Q8QZQ5, Q91DM2). С помощью программы seqret был вырезан фрагмент этого полипротеина, соответствующий хеликазе и помещён в файл. В полипротеине этот белок имеет координаты 2371-2837. С полученным белком были проведены действия, подобные описанному в предыдущей части работы. На этот раз находок было всего 9. Из них выбрано 7, включая исходную. С текстовой выдачей запроса можно ознакомиться здесь, а с результатом множественного выравнивания здесь.

Исследование зависимости E-value от объёма банка

Если предыдущих запросов ограничить поиском только среди вирусов, то количество находок не изменится, но будут различаться значения E-value (Табл.1). Так как размер банка, по которому осуществляется поиск, стал меньше, E-value тоже уменьшилось. Попробуем оценить долю вирусных белков с помощью теоремы Карлина. В ней фигурирует размер базы данных, по которой осуществляется поиск (n). Остальные параметры остаются неизменны. Поэтому, разделив значение E-value с фильтром на значение без фильтра, получим, что доля вирусных белков составляет от 3,33-5%.

Хотелось отметить, что, возможно, полученное значение зависит также от выбранного белка. Например, сначала я выполнил задание для РНК-зависимой РНК-полимеразы из полипротеина, и полученная доля вирусов была выше. Думаю, что это связано с тем, что РНК-зависимая РНК-полимераза свойственна РНК-содержащим вирусам, а хеликазы свойственны всем живым организмам.

table1
Табл. 1. Сравнение E-value двух выдач