Селифонов (slfn) учебный сайт; Обо мне

ПРАКТИКУМ 10

1. Поиск гомологов белка в Swissprot

В данном задании я работал с цикло(L-лейцил-L-лейцил) синтазой YvmC бактерии Bacillus licheniformis. При запуске BLAST (алгоритм blastp) были в основном использованы параметры по умолчанию: максимальный размер выдачи 100, максимальное значение E-value 0.05, матрица весов BLOSUM 62, штраф за открытие гэпа 11, штраф за удлинение гэпа 1, Compositional adjustment - Conditional сompositional score matrix adjustment, включенный фильтр Low complexity regions. Была выбрана база данных Swiss-Prot, длина слова (word length) была установлена на 3.

Выдача состояла всего из 7 записей (включая исходный белок), поэтому я решил решил работать со всеми из них. Для построяния множественного выравнивания я скачал файл с последовательностями из выдачи в формате fasta (seqdump.txt), загрузил его на kodomo и выполнил команду:

muscle -in seqdump.txt -out cdls_alignment.fasta

Получившийся файл я скачал и сохранил в виде проекта Jalview.

Судя по выравниванию, полученные белки действительно гомологичны. Имеется несколько особо консервативных участков, в пределах которых сходство между последовательностями достаточно велико (колонки 82 - 95, 102 - 106, 110, 126 - 141 и т. д.). Гэпов и инделей сравнительно немного, они в основном сосредоточены на концах выравнивания.

2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

Для поиска в базе данных Swiss-Prot вирусных полипротеинов был использован запрос:

taxonomy:"Viruses [10239]" name:polyprotein AND reviewed:yes

Я выбрал белок Polyprotein nsP1234 (ID: POLN_RRVT, AC:P13888), принадлежащий вирусу лихорадки реки Росс (Ross river virus (strain T48) (RRV)). Один из белков, получающихся при разрезании этого полипротеина - RNA-directed RNA polymerase nsP4 (РНК-зависимая РНК-полимераза), его последовательность образована остатками 539 - 1149 исходного полипептида. Чтобы вырезать последовательность зрелого белка, я использовал команду:

seqret 'sw:poln_rrvt[539:1149]' RdRP_segment.fasta

Название последовательности я менять не стал, но в описании оставил только ту его часть, которая имела отношение к полимеразе. Для получившейся последовательности я запустил BLAST с теми же параметрами, что и в задании 1. На этот раз, выдача состояла из 68 записей. Из них я выбрал 6. Я открыл через Jalview полученный ранее файл RdRP_segment.fasta, добавил в него выбранные последовательности, выравнял их и сохранил проект.

По результатам выравнивания можно сказать, что все исследуемые последовательности (фрагменты полипротеинов) гомологичны (в них очень много как похожих, так и полностью идентичных участков достаточно большой длины).

3. Исследование зависимости E-value от объема банка

После ограничения поиска только вирусными белками значения E-value для многих находок уменьшились. Например, для белка Replicase large subunit вируса Obuda pepper virus оно изменилось с 4e-10 на 2e-11, то есть примерно в 20 раз. При постоянной длине последовательности и постоянном весе выравнивания в битах объем банка находится в прямой зависимости от значения E-value. Это значит, что число записей в Swiss-Prot, соответствующих вирусным белкам, в 20 раз меньше общего количества записей. То есть, доля вирусных белков в базе данных составляет приблизительно 5%.

При этом количество находок возросло на 3. Это можно объяснить уменьшением E-value выравниваний, из-за которого значение параметра для некоторых из них после ограничения поиска стало ниже, чем 0.05. Можно заметить, что у новых находок значения E-value действительно близки к пограничным.