PSI-BLAST (Position-Specific Iterated BLAST)

PSI-BLAST - алгоритм BLAST, с помощью которого можно найти гомологов заданного белка, достаточно далеко отстоящих эволюционно. Его особенность состоит в использовании матриц замен, модифицируемых в процессе поиска. В PSI-BLAST применяются профили (Position-specific scoring matrix, PSSM), матрицы, в которых для каждой позиции выравнивания приведены веса замен на все возможные аминокислоты. Поиск осуществляется в несколько раундов:

Работа алгоритма считается завершённой, когда после очередной итерации не нашлось последовательностей выше порога, не обнаруженных в прошлой итерации, то есть группа гомологов обособилась от прочих последовательностей.
Нужно отметить, что при использовании этой версии BLAST можно осуществлять редакцию выборки последовательностей, по которой составляется PSSM, в том числе включая белки с надпороговым e-value.

Составление выборки гомoлогов белка Q1AHR3 с использованием алгоритма PSI-BLAST

Производился поиск гомологов для случайно выбранной из списка последовательности (номер 11), Q1AHR3, являющейся Bcl-2-подобным белком из шимпанзе (Bcl-2 - регулятор апопотоза, ингибирует каспазы). Логично ожидать среди результатов поиска и человеческие последовательности (забегая вперёд, отметим, что так оно и оказалось, а вот Bcl-2 найден не был). В таблице 1 приведён протокол поиска.


Протокол поиска гомологов Q1AHR3 с помощью PSI-BLAST
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 11 XP_003476407.1 2e-14 WP_000741605.1 6.3
2 13 XP_004595223. 0.005 YP_005335608 0.005
3 14 XP_002456662.1 5e-04 YP_005335608 0.039
4 15 NP_302678.1 4e-05 XP_004388256.1 0.023
5 16 XP_003476470.1 4е-04 XP_002841023.1 0.014
6 16 XP_003476470.1 4е-04 XP_002841023.1 0.014

Результат был достигнут на пятой итерации, в число составляющих основу для профиля не включался огромный белок из микобактерии, один крупный растительный и один весьма немаленький ионный канал из морской свинки.

Во время поиска происходило следующее: находились очень длинная последовательности (порядка 1500 а.о.), вероятность, что в такой огромной последовательности найдётся похожий паттерн, довольно большая. Если включать её в следующий профиль, выборка быстро вырождается в набор гомологичных между собой, но скорее всего не с запросом последовательностей. Так, любой лишний белок с большим числом очень близких гомологов будет "убивать" выборку уже на следующей итерации.
Этот пример показывает, что без редакции выборки, по которой строится профиль, использование PSI-BLAST бессмысленно, а также то, что этот алгоритм в общем случае нельзя автоматизировать в плане "безнадзорного" прохождения n-ого числа итераций без дополнительных ухищрений. Кроме того, без редакции выборки алгоритм очень долго не сходится.
Множественное выравнивание результатов поиска представлено на рис.1.



Рис. 1 Множественное выравнивание результатов поиска с помощью PSI-BLAST (нажмите, чтобы увеличить)

Достаточно очевидно, что две самые длинные последовательности вряд ли гомологичны запросу. В самом деле, предполагать вставку многих сотен аминокислот было бы довольно смело. Ещё две очень схожие между собой длинные последовательности (по 700 аминокислот), из сорго и кукурузы.

Тот факт, что все остальные последовательности принадлежат млекопитающим, и почти все - приматам, заставляет нас усомниться в гомологичности последовательностей из злаков исследуемому белку. С помощью BLAST (двух последовательностей) одной из них с запросом получено e-value 0.16, что не убеждает в наличии гомологии.
Таким образом, в отличие от обычного BLAST нашлась дополнительно только одна последовательность. На рисунке 2 приведено множественное выравнивание для оставшихся последовательностей. Видно, что сомнений в их гомологии практически нет.
Во всех этих белках наблюдается очень высокое содержание положительно заряженных а.о. и длинные промежутки из гидрофобных амк. Довольно характерная структура, надо сказать. Похоже, что белки трансмембранные.



Рис. 2 Множественное выравнивание достовеpных гомологов Q1AHR3 (нажмите, чтобы увеличить)

Для общей оценки полноты результатов имеет смысл провести поиск в Pfam для Q1AHR3.
В целом, использование PSI-BLAST расширяет наши возможности, однако следует применять его с некоторой осторожностью.