PSI-BLAST


Составление выборки гомoлогов белка Q04719 с помощью PSI-BLAST

Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) основан на ступенчатом выравнивании гомологов. Процесс разделен на итерации: первая итерация - обычный белок-белковый Blast, находки автоматически разделяются на 2 категории - "плохие" и "хорошие" (главную роль играет значение e-value, однако добавлять и исключать последовательности можно и вручную). Плохие находки с низкой вероятностью гомологии не участвуют в дальнейших итерациях, а на основе хороших строится некоторый профиль, по которому осуществляются следующие аналогичные операции. Последней считается итерация, после которой не произошло добавления в выборку новых гомологов.

После каждой итерации отбирались лучшие по моему мнению кандидаты в гомологи, на основе которых и делалась следующая итерация. Критериями отбора служили как значения e-value, так и названия белков (опорой служили знания о принадлежности белка к семейству ME53 и о его функции регулятора синтеза нуклеиновых кислот).

Табл. 1. Протокол итераций PSI-BLAST
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 38 YP_001257085.1 0.005 XP_002617975.1 0.019
2 51 YP_003429444.1 3e-16 WP_005006206.1 0.023
3 51 YP_006908640.1 3e-51 XP_003436169.1 0.11
После третьей итерации Blast сошелся, значит, можно считать его законченным. Таким образом, к белку Q04719 нашлось 50 предположительных гомологов.
Для найденных гомологов было построено выравнивание на сайте, проект JalView.
Рис. 1. Выравнивание предположительных гомологов. Для просмотра кликните на картинку.

Бросается в глаза, что выравнивание можно разделить на две группы. Одна белки (вместе с Q04719) имеют достаточно протяженный N-концевой домен, тогда как у второй группы белков эта часть последовательности отсутствует. Вероятно, это вариабельная часть, потому что сходство в остальном достаточно высокое. Возможно, этот домен является сигнальным пептидом, который у большей части гомологов исчез. На это указывает и достаточно большое количество положительно заряженных аминокислот внутри этого участка последовательности.

Сравнение с данными о составе семейства из банка Pfam


По результатам обработки информации выяснилось, что белок Q04719 включает в себя один домен и входит в семейство Baculo_ME53 (PF06061). В этом семействе возможны только 2 варианта расположения домена: один цельный домен в белке или два неполных домена в белке. Это семейство белков вирусов, они присутствуют в виде 62 последовательностей у 54 видов. Все последовательности, найденные в выборке, были найдены у различных родов вирусов семейства Baculoviridae. Однако не все последовательности Pfam нашлись путем использования PSI-Blast. Я думаю, это в основном связано с осторожным добавлением сомнительных гомологов в промежуточные итерации.

© Elizaveta Besedina, FBB 2012
lizaveta@kodomo.fbb.msu.ru