Составление выборки гомoлогов белка Q04719 с помощью PSI-BLAST
Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) основан на ступенчатом выравнивании гомологов. Процесс разделен на итерации: первая итерация - обычный белок-белковый Blast, находки автоматически разделяются на 2 категории - "плохие" и "хорошие" (главную роль играет значение e-value, однако добавлять и исключать последовательности можно и вручную). Плохие находки с низкой вероятностью гомологии не участвуют в дальнейших итерациях, а на основе хороших строится некоторый профиль, по которому осуществляются следующие аналогичные операции. Последней считается итерация, после которой не произошло добавления в выборку новых гомологов.После каждой итерации отбирались лучшие по моему мнению кандидаты в гомологи, на основе которых и делалась следующая итерация. Критериями отбора служили как значения e-value, так и названия белков (опорой служили знания о принадлежности белка к семейству ME53 и о его функции регулятора синтеза нуклеиновых кислот).
Табл. 1. Протокол итераций PSI-BLAST | ||||||||||||||||||||||||
|
Для найденных гомологов было построено выравнивание на сайте, проект JalView.
Рис. 1. Выравнивание предположительных гомологов. Для просмотра кликните на картинку. |
Бросается в глаза, что выравнивание можно разделить на две группы. Одна белки (вместе с Q04719) имеют достаточно протяженный N-концевой домен, тогда как у второй группы белков эта часть последовательности отсутствует. Вероятно, это вариабельная часть, потому что сходство в остальном достаточно высокое. Возможно, этот домен является сигнальным пептидом, который у большей части гомологов исчез. На это указывает и достаточно большое количество положительно заряженных аминокислот внутри этого участка последовательности.
Сравнение с данными о составе семейства из банка Pfam
По результатам обработки информации выяснилось, что белок Q04719 включает в себя один домен и входит в семейство Baculo_ME53 (PF06061). В этом семействе возможны только 2 варианта расположения домена: один цельный домен в белке или два неполных домена в белке. Это семейство белков вирусов, они присутствуют в виде 62 последовательностей у 54 видов. Все последовательности, найденные в выборке, были найдены у различных родов вирусов семейства Baculoviridae. Однако не все последовательности Pfam нашлись путем использования PSI-Blast. Я думаю, это в основном связано с осторожным добавлением сомнительных гомологов в промежуточные итерации.