10. Программа BLAST

1. Поиск гомологов белка Pyruvate dehydrogenase [ubiquinone] (ID: A0A8A8DBA0_9BURK)

Мой белок из 7 практикума - пируватдегидрогеназа Burkholderia seminalis (ID A0A8A8DBA0_9BURK)

Параметры поиска программы BLAST

В графе database была выбрана swiss-prot. Поставил максимальный размер выдачи 100 последовательностей. Пороговое значение E-value - 0.05. Остальные значения стоят по умолчанию.

Отбор последовательностей
Ссылка на текстовую выдачу BLAST

Всего было найдено 77 последовательносетй. Из них я отобрал одну с самого конца с наименьшим E-value. Остальные последовательсности были отобраны случайно: из самого начала списка и из середины.

Далее я скачал fasta-файл с последовательностями выбранных мною белков. Мой исходный белок я добавил в ручную, потому что его нет в датабазе swiss-prot. Далее я запустил программу muscle и полученный файл импортировал в jalveiw, сделал окраску по проценту идентичности.

Посмотрев на полученное вырвнивание, грубой оценкой можно выделить ~5 консервативных кластеров, общих для большинства белков. В глаза бросается, что у белка с АС A0QBE6 в 3 из 5 консервативных кластеров видно сильное несовпадение. Помимо этого, у A0QBE6 заметно большое количество ГЭПов в местах, где у других белков их нет. Значит, его можно назвать негомологичным. Посмотрев в список выдачи BLAST, убеждаюсь, что это белок с наибольшим значением Е-value. Другие белки можно назвать гомологичными, потому что у них высокий процент гомологии в 5 из 5 консервативных участков и почти все ГЭПы совпадают. Интересно отметить, что белок P10343 с наименьшим E-value имеет Query Cover 60% , в то время как белки с Query Cover 92% имеют E-value на 50-100 порядков больше! Это отражает важность вклада матрицы аминокислотных замен.

Ссылка на проект Jalview

2. Гомологи зрелого вирусного белка

Полипротеин

Я выбрал полипротеин вируса New York virus, потому что его название очень fancy 💅

ID: GP_NYV

AC: Q83887

OS: New York virus (NYV)


Я выбрал полипротеин Glycoprotein C с координатами [653,1140].

С помощью seqret вырезал нужный участок, затем изменил название и описание с помощью descseq:
descseq segment.fasta -name 'Glycoprotein C' -out segm.fasta -desc 'OS=Burkholderia seminalis OX=488731 GN=poxB PE=3 SV=1'

Ссылка на выдачу BLAST

BLAST выдал 22 белка, я выбрал единственные 4 штуки с E-value не равным техническому нулю

Ссылка на проект Jalview (virus)

Белки с Accession P41264.1, Q09120.1 и исходный вирусный белок (Glycoprotein C) можно назвать гомологичными, потому что в их выравнивании можно выделить ~13 консервативных кластеров, которые составляют почти всю последовательность этих белков (кроме начала и конца), и на этих кластерах наблюдается почти полное сходство. Ситуация с A6XIP3.1 и Q8JSZ3.1 другая: они плохо выравнялись на Glycoprotein C, присутствует очень большое количество ГЭПов и в рассмотренных ранее консервативных кластерах сходство с Glycoprotein C гораздо меньше. Таким образом, только P41264.1, Q09120.1 и Glycoprotein C можно назвать гомологичными.

3. Исследование зависимости E-value от объёма банка

При поиске по всем организмам: 22 последовательности

При поиске по вирусам: 22 последовательности

Но для рассмотренных мною ранее последовательностей изменилось значение E-value

Для P41264 (Envelope glycoprotein) E-value для поиска по всем = 1e-159, E-value для поиска по вирусам = 5e-161.

Если посмотреть на формулу теоремы Карлина, можно заключить, что отношение двух значений E-value при отличающихся размерах баз данных и при прочих равных параметрах соответсвтует отношению двух размеров баз данных.

Таким образром: (E-value для поиска по вирусам = 5e-161)/(E-value для поиска по всем = 1e-159) = 0.05

Доля вирусных белков в Swissprot составляет ~ 5%.