Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) предназначен для
поиска удаленных гомологов белков. При этом используется техника
профилей (Position-specific scoring matrix, PSSM), т.е. таблиц,
в которых по строкам располагаются все возможные аминокислоты,
а по столбцам - номера позиций в выравниавании. Значение в ячейке таблицы,-
это число, показывающее вес данной аминокислоты в данной позиции:
чем чаще она встречается в этом месте в гомологах,
тем ее вес больше, и наоборот.
Очевидно, такие профили строятся на основе уже найденных гомологов.
Профили используются для поиска новых гомологов: в этом и заключается итеративность
алгоритма - по профилю нашли новое, по новому скорректировали профиль и опять, -
поиск.
Для поиска профиль служит также, как матрица BLOSUM в классическом алгоритме
BLAST: он позволяет оценить вес выравниваний новых последовательностей с
интересующей и, соответственно, выявить лучшие хиты.
Позитивное отличие PSI-BLAST от BLAST, связано с самонастраиванием
матрицы весов - это позволяет адекватнее отбирать последовательности,
так сказать, "погрузиться в проблему". Но, как мы выясним на примере, и здесь могут быть нюансы.
Поиск считается сошедшимся, если после очередной итерации список находок выше порога (т.е. лучших) не изменился. Это означает, что профиль тоже не изменится, и следующая итерация даст тот же результат.
В качестве примера на этот раз, мы возьмем белок Q9QCL4, а не привычный CRH_BACSU.
Такая замена вызвана тем, что для CRH известно очень много гомологов, что сделает
работу громоздкой и неудобной, в частности, придется провести очень много итераций
до схождения алгоритма. Для каждой итерации мы зафиксировали идентификаторы
"худшей из лучших" и "лучшей из худших" находок, их E-value, а также число
лучших находок (таблица 1).
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 1 | YP_009031.1 | 2e-22 | ZP_01989141.1 | 1.0 |
2 | 8 | ZP_06182218.1 | 5e-05 | YP_004905238.1 | 3.2 |
3 | 8 | ZP_06182218.1 | 1e-08 | NP_609230.2 | 0.37 |
3 | 8 | ZP_06182218.1 | 1e-08 | NP_609230.2 | 0.37 |
Таблица 1. Результаты PSI-BLAST для Q9QCL4.
Как видно из данных, представленных в таблицы 1, после первого раунда поиска была найдена всего одна последовательность
с удовлетворительным E-value. Одной последовательности очвидно не достаточно, чтобы
построить профиль, поэтому пришлось включить вторую по списку - лучшую из худших.
На втором раунде поиска было найдено уже 8 хороших хитов. По ним был проведен третий раунд,
в результате которого e-value хитов немного изменились, но сам их список не
претерпел изменений.
Для проверки был проведен контрольный, четвертый, раунд, в котором, как и ожидалось,
не изменился ни список, ни e-value хитов, поэтому можно было считать поиск сошедшимся.
Что интересно, после третьего раунда поиск e-value первого найденного хита, - очевидного гомолога
интересующей нас последовательности, упал. Это противоречит здравому смыслу, потому что имменно этот хит и
с приличным e-value был найден в первом раунде. Неоспоримую гомологию этих последовательностей подтверждает тот факт, что и Q9QCL4 и
YP_009031.1 (идентификатор хита) являются P10 открытой рамкой считывания и белком p10, соответственно. Причем, одного и того же
организма: вируса, вызывающего болезнь Борна (Borna disease virus (BDV)).
Такое странное поведение параметра скорее всего связано с преобладанием последовательностей другой группы (7 из 8 итоговых хитов),
чем из BDV (кстати сказать, все они из рода Vibrio). Такое засилие слабогомологичных к исходной последовательностей,
но при этом, сильно гомологичных между собой, привело к вырождению профиля во время последнего раунда
в пользу "чужих" последовательностей.
Поэтому, по сформулированным выше соображениям, к результатам поиска следует относится с осторожностью.
Добавляет недоверие и множественное выравнивание итоговых 8 хитов (рис 1):
оно показывает четкую гомологию последовательностей из Vibrio между собой и очень сомнительную,- с Q9QCL4.
Рис 1. Участок выравнивания, содержащий последовательность Q9QCL4.
Полноразмерное выравнивание можно посмотреть по этой ссылке
Таким образом, по результатам поиска нельзя однозначно указать на принадлежность всех хитов одному семейству.
Можно лишь с уверенностью говорить о гомологии Q9QCL4 и YP_009031.1, а также о практически 100% гомологии последовательностей из
Vibrio.
В целом, можно заметить, что в любых случаях, где найдено мало очевидных гомологов, будут искажаться
и вырождаться профили при добавлении сомнительных хитов (лучших из худших).
В качестве контрольного опыта, был проведен независимый поиск гомологов через банк семейств белковых доменов Pfam.
В белке Q9QCL4 присутствует единственный домен BDV_P10 (PF06515). По данным Pfam,
известно всего 40 последовательностей, принадлежащих 7 видам вирусов (рис 2), содержащих этот домен.
Рис 2. Распространенность белков с доменом BDV_P10 (PF06515). Полноразмерное изображение смотрите здесь
Все найденные последовательности несут по одному домену BDV_P10.
Отсутствие в этом списке последовательностей из Vibrio только усилило сомнения по поводу результатов PSI-BLAST.