Мой белок из 7 практикума - пируватдегидрогеназа
В графе database была выбрана swiss-prot. Поставил максимальный размер выдачи 100 последовательностей. Пороговое значение E-value - 0.05. Остальные значения стоят по умолчанию.
Всего было найдено 77 последовательносетй. Из них я отобрал одну с самого конца с наименьшим E-value. Остальные последовательсности были отобраны случайно: из самого начала списка и из середины.
Далее я скачал fasta-файл с последовательностями выбранных мною белков. Мой исходный белок я добавил в ручную, потому что его нет в датабазе swiss-prot. Далее я запустил программу muscle и полученный файл импортировал в jalveiw, сделал окраску по проценту идентичности.
Посмотрев на полученное вырвнивание, грубой оценкой можно выделить ~5 консервативных кластеров, общих для большинства белков. В глаза бросается, что у белка с АС A0QBE6 в 3 из 5 консервативных кластеров видно сильное несовпадение. Помимо этого, у A0QBE6 заметно большое количество ГЭПов в местах, где у других белков их нет. Значит, его можно назвать негомологичным. Посмотрев в список выдачи BLAST, убеждаюсь, что это белок с наибольшим значением Е-value. Другие белки можно назвать гомологичными, потому что у них высокий процент гомологии в 5 из 5 консервативных участков и почти все ГЭПы совпадают. Интересно отметить, что белок P10343 с наименьшим E-value имеет Query Cover 60% , в то время как белки с Query Cover 92% имеют E-value на 50-100 порядков больше! Это отражает важность вклада матрицы аминокислотных замен.
Ссылка на проект JalviewЯ выбрал полипротеин вируса New York virus, потому что его название очень fancy 💅
ID: GP_NYV
AC: Q83887
OS: New York virus (NYV)
Я выбрал полипротеин Glycoprotein C с координатами [653,1140].
С помощью seqret вырезал нужный участок, затем изменил название и описание с помощью descseq:
descseq segment.fasta -name 'Glycoprotein C' -out segm.fasta -desc 'OS=Burkholderia seminalis OX=488731 GN=poxB PE=3 SV=1'
BLAST выдал 22 белка, я выбрал единственные 4 штуки с E-value не равным техническому нулю
Ссылка на проект Jalview (virus)Белки с Accession P41264.1, Q09120.1 и исходный вирусный белок (Glycoprotein C) можно назвать гомологичными, потому что в их выравнивании можно выделить ~13 консервативных кластеров, которые составляют почти всю последовательность этих белков (кроме начала и конца), и на этих кластерах наблюдается почти полное сходство. Ситуация с A6XIP3.1 и Q8JSZ3.1 другая: они плохо выравнялись на Glycoprotein C, присутствует очень большое количество ГЭПов и в рассмотренных ранее консервативных кластерах сходство с Glycoprotein C гораздо меньше. Таким образом, только P41264.1, Q09120.1 и Glycoprotein C можно назвать гомологичными.
При поиске по всем организмам: 22 последовательности
При поиске по вирусам: 22 последовательности
Но для рассмотренных мною ранее последовательностей изменилось значение E-value
Для P41264 (Envelope glycoprotein) E-value для поиска по всем = 1e-159, E-value для поиска по вирусам = 5e-161.
Если посмотреть на формулу теоремы Карлина, можно заключить, что отношение двух значений E-value при отличающихся размерах баз данных и при прочих равных параметрах соответсвтует отношению двух размеров баз данных.
Таким образром: (E-value для поиска по вирусам = 5e-161)/(E-value для поиска по всем = 1e-159) = 0.05
Доля вирусных белков в Swissprot составляет ~ 5%.