Поиск семейств белков при помощи PSI-BLAST

Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) предназначен для поиска удаленных гомологов белков. При этом используется техника профилей (Position-specific scoring matrix, PSSM), т.е. таблиц, в которых по строкам располагаются все возможные аминокислоты, а по столбцам - номера позиций в выравниавании. Значение в ячейке таблицы,- это число, показывающее вес данной аминокислоты в данной позиции: чем чаще она встречается в этом месте в гомологах, тем ее вес больше, и наоборот.
Очевидно, такие профили строятся на основе уже найденных гомологов.
Профили используются для поиска новых гомологов: в этом и заключается итеративность алгоритма - по профилю нашли новое, по новому скорректировали профиль и опять, - поиск.
Для поиска профиль служит также, как матрица BLOSUM в классическом алгоритме BLAST: он позволяет оценить вес выравниваний новых последовательностей с интересующей и, соответственно, выявить лучшие хиты.

Позитивное отличие PSI-BLAST от BLAST, связано с самонастраиванием матрицы весов - это позволяет адекватнее отбирать последовательности, так сказать, "погрузиться в проблему". Но, как мы выясним на примере, и здесь могут быть нюансы.

Шаги алгоритма:

Поиск считается сошедшимся, если после очередной итерации список находок выше порога (т.е. лучших) не изменился. Это означает, что профиль тоже не изменится, и следующая итерация даст тот же результат.

Применение PSI-BLAST

В качестве примера на этот раз, мы возьмем белок Q9QCL4, а не привычный CRH_BACSU.
Такая замена вызвана тем, что для CRH известно очень много гомологов, что сделает работу громоздкой и неудобной, в частности, придется провести очень много итераций до схождения алгоритма. Для каждой итерации мы зафиксировали идентификаторы "худшей из лучших" и "лучшей из худших" находок, их E-value, а также число лучших находок (таблица 1).

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 1 YP_009031.1 2e-22 ZP_01989141.1 1.0
2 8 ZP_06182218.1 5e-05 YP_004905238.1 3.2
3 8 ZP_06182218.1 1e-08 NP_609230.2 0.37
3 8 ZP_06182218.1 1e-08 NP_609230.2 0.37

Таблица 1. Результаты PSI-BLAST для Q9QCL4.

Как видно из данных, представленных в таблицы 1, после первого раунда поиска была найдена всего одна последовательность с удовлетворительным E-value. Одной последовательности очвидно не достаточно, чтобы построить профиль, поэтому пришлось включить вторую по списку - лучшую из худших.
На втором раунде поиска было найдено уже 8 хороших хитов. По ним был проведен третий раунд, в результате которого e-value хитов немного изменились, но сам их список не претерпел изменений.
Для проверки был проведен контрольный, четвертый, раунд, в котором, как и ожидалось, не изменился ни список, ни e-value хитов, поэтому можно было считать поиск сошедшимся.

Что интересно, после третьего раунда поиск e-value первого найденного хита, - очевидного гомолога интересующей нас последовательности, упал. Это противоречит здравому смыслу, потому что имменно этот хит и с приличным e-value был найден в первом раунде. Неоспоримую гомологию этих последовательностей подтверждает тот факт, что и Q9QCL4 и YP_009031.1 (идентификатор хита) являются P10 открытой рамкой считывания и белком p10, соответственно. Причем, одного и того же организма: вируса, вызывающего болезнь Борна (Borna disease virus (BDV)).
Такое странное поведение параметра скорее всего связано с преобладанием последовательностей другой группы (7 из 8 итоговых хитов), чем из BDV (кстати сказать, все они из рода Vibrio). Такое засилие слабогомологичных к исходной последовательностей, но при этом, сильно гомологичных между собой, привело к вырождению профиля во время последнего раунда в пользу "чужих" последовательностей.
Поэтому, по сформулированным выше соображениям, к результатам поиска следует относится с осторожностью.

Добавляет недоверие и множественное выравнивание итоговых 8 хитов (рис 1): оно показывает четкую гомологию последовательностей из Vibrio между собой и очень сомнительную,- с Q9QCL4.

Рис 1. Участок выравнивания, содержащий последовательность Q9QCL4.
Полноразмерное выравнивание можно посмотреть по этой ссылке

Таким образом, по результатам поиска нельзя однозначно указать на принадлежность всех хитов одному семейству. Можно лишь с уверенностью говорить о гомологии Q9QCL4 и YP_009031.1, а также о практически 100% гомологии последовательностей из Vibrio.

В целом, можно заметить, что в любых случаях, где найдено мало очевидных гомологов, будут искажаться и вырождаться профили при добавлении сомнительных хитов (лучших из худших).

Сравнение результатов поиска Pfam и PSI-BLAST

В качестве контрольного опыта, был проведен независимый поиск гомологов через банк семейств белковых доменов Pfam.
В белке Q9QCL4 присутствует единственный домен BDV_P10 (PF06515). По данным Pfam, известно всего 40 последовательностей, принадлежащих 7 видам вирусов (рис 2), содержащих этот домен.

Рис 2. Распространенность белков с доменом BDV_P10 (PF06515). Полноразмерное изображение смотрите здесь

Все найденные последовательности несут по одному домену BDV_P10.

Отсутствие в этом списке последовательностей из Vibrio только усилило сомнения по поводу результатов PSI-BLAST.


© 2012; Sutormin Dmitry 05.04.13