PSI-BLAST (Position-Specific Iterated BLAST)
PSI-BLAST - алгоритм BLAST, с помощью которого можно найти гомологов заданного белка, достаточно далеко отстоящих эволюционно. Его особенность состоит в использовании матриц замен, модифицируемых в процессе поиска. В PSI-BLAST применяются профили (Position-specific scoring matrix, PSSM), матрицы, в которых для каждой позиции выравнивания приведены веса замен на все возможные аминокислоты. Поиск осуществляется в несколько раундов:
- Первый поиск проводится по обычному алгоритму BLAST
- Последовательности с e-value выше порога (по умолчанию 0.005, настраиваемо) используются для составления профиля (PSSM)
- Далее производится новая итерация поиска уже с использованием PSSM
- Последние три операции повторяются до схождения алгоритма
Работа алгоритма считается завершённой, когда после очередной итерации не нашлось
последовательностей выше порога, не обнаруженных в прошлой итерации, то есть группа гомологов
обособилась от прочих последовательностей.
Нужно отметить, что при использовании этой версии BLAST можно осуществлять редакцию
выборки последовательностей, по которой составляется PSSM, в том числе включая белки
с надпороговым e-value.
Составление выборки гомoлогов белка Q1AHR3 с использованием алгоритма PSI-BLAST
Производился поиск гомологов для случайно выбранной из списка последовательности (номер 11), Q1AHR3, являющейся Bcl-2-подобным белком из шимпанзе (Bcl-2 - регулятор апопотоза, ингибирует каспазы). Логично ожидать среди результатов поиска и человеческие последовательности (забегая вперёд, отметим, что так оно и оказалось, а вот Bcl-2 найден не был). В таблице 1 приведён протокол поиска.
Протокол поиска гомологов Q1AHR3 с помощью PSI-BLAST
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 11 | XP_003476407.1 | 2e-14 | WP_000741605.1 | 6.3 |
2 | 13 | XP_004595223. | 0.005 | YP_005335608 | 0.005 |
3 | 14 | XP_002456662.1 | 5e-04 | YP_005335608 | 0.039 |
4 | 15 | NP_302678.1 | 4e-05 | XP_004388256.1 | 0.023 |
5 | 16 | XP_003476470.1 | 4е-04 | XP_002841023.1 | 0.014 |
6 | 16 | XP_003476470.1 | 4е-04 | XP_002841023.1 | 0.014 |
Результат был достигнут на пятой итерации, в число составляющих основу для профиля не включался огромный белок из микобактерии, один крупный растительный и один весьма немаленький ионный канал из морской свинки.
Во время поиска происходило следующее: находились очень длинная последовательности (порядка 1500 а.о.), вероятность, что в такой огромной последовательности найдётся похожий паттерн, довольно большая.
Если включать её в следующий профиль, выборка быстро вырождается в набор гомологичных между собой, но скорее всего не с запросом
последовательностей. Так, любой лишний белок с большим числом очень близких гомологов будет "убивать"
выборку уже на следующей итерации.
Этот пример показывает, что без редакции выборки, по которой строится профиль,
использование PSI-BLAST бессмысленно, а также то, что этот алгоритм в общем случае нельзя автоматизировать в плане
"безнадзорного" прохождения n-ого числа итераций без дополнительных ухищрений.
Кроме того, без редакции выборки алгоритм очень долго не сходится.
Множественное выравнивание результатов поиска представлено на рис.1.
Рис. 1 Множественное выравнивание результатов поиска с помощью PSI-BLAST (нажмите, чтобы увеличить)
Достаточно очевидно, что две самые длинные последовательности вряд ли гомологичны запросу. В самом деле, предполагать вставку многих сотен аминокислот было бы довольно смело. Ещё две очень схожие между собой длинные последовательности (по 700 аминокислот), из сорго и кукурузы.
Тот факт, что все остальные последовательности принадлежат млекопитающим, и почти все - приматам, заставляет нас усомниться в гомологичности последовательностей из злаков исследуемому белку. С помощью BLAST (двух последовательностей) одной из них с запросом получено e-value 0.16, что не убеждает в наличии гомологии.Таким образом, в отличие от обычного BLAST нашлась дополнительно только одна последовательность. На рисунке 2 приведено множественное выравнивание для оставшихся последовательностей. Видно, что сомнений в их гомологии практически нет.
Во всех этих белках наблюдается очень высокое содержание положительно заряженных а.о. и длинные промежутки из гидрофобных амк. Довольно характерная структура, надо сказать. Похоже, что белки трансмембранные.
Рис. 2 Множественное выравнивание достовеpных гомологов Q1AHR3 (нажмите, чтобы увеличить)
Для общей оценки полноты результатов имеет смысл провести поиск в Pfam для Q1AHR3.
В целом, использование PSI-BLAST расширяет наши возможности, однако следует применять
его с некоторой осторожностью.