PSI-BLAST




Поиск семейств белков при помощи PSI-BLAST


Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) используется для поиска удаленных гомологов белков. В данном алгоритме применяется техника профилей, иными словами таблиц, где по строкам располагаются все возможные аминокислоты, а по столбцам - номера позиций в выравниавании, и числа в ячейках таблицы - это вес конкретной аминокислоты в конктретной позиции. Из этого логично предположить, что частота ее встречаемости в этом месте в гомологах прямо пропорциональна ее весу.
Смысл этих профилей заключается в поиске новых гомологов, то есть алгоритм представляет собой поиск по профилю, затем коррекция нового профиля, поиск по новому профилю и т.д.
По отношению к поиску профиль выполняет сходные функции с матрицей BLOSUM в классическом алгоритме BLAST (оценка веса выравниваний новых последовательностей с заданной нами последовательностью, то есть помогает выявить наилучшие хиты.

Пошаговый алгоритм:

Применение PSI-BLAST

Для работы был выбран случайный белок из списка. Им оказался Q65664 (SwissProt_ID белка: Q65664_BMV). При поиске использовался банк nr, так как хороших находок в Refseq нет. Скорее всего это связано с тем, что последнее обновление Refseq было в 2008.
Идентификаторы "худшей из лучших" и "лучшей из худших" находок, их E-value, а также число лучших находок для каждой интерации представлены в таблице 1.

Таблица 1. Результаты PSI-BLAST для Q65664.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 19 NP_658998.1 4e-53 ENH80566.1 0.064
2 22 CAJ29330.1 0.004 ABU62578.1 0.005
3 24 AAK52425.1 0.004 AFX68428.1 0.005
4 24 AAK52425.1 0.004 AFX68428.1 0.005

Из данных, представленных в таблице 1 видно, что после первого раунда поиска было найдено 19 последовательностей белков с E-value выше установленного порога. Исходя из примера, приведенного в подсказках (если после находки с E=2E-10 идет находка E=0.001 (разница в 7 порядков), то стоит попробовать отключить вторую находку (и те, что ниже) от очередной итерации), были отобраны последовательности для построения профиля. На втором раунде поиска нашлось на 3 хита больше, чем в первом. После третьего раунда - на 2 хита больше по сравнению с предыдущим. Результаты дальнейших поисков повторяли результаты третьего раунда, что ожидаемо. Основываясь на данных последнего раунда поиска было построено множественное выравнивание 24 хитов (рис.1).

Рисунок 1. Множественное выравнивание гомологов белка Q65664, включая саму последовательность изучаемого белка. Для окраски использована стандартная цветовая гамма Clustalx.

В целом, последовательности схожи между собой, четко можно выделить консервативные участки и петли. Однако, последние 4 последовательности достаточно сильно отличаются от остальных, но это и неудивительно, так как в таблиуе результатов поиска они идут с резко отличающимся E-value: находка №19 имеет E-value, равное 2е-63, между тем, как E-value последующих пяти находок колеблится в пределах от 0.002 до 0.004. Это различие и объясняет различную степень их гомологичности (ее снижение).



© Novikova Maria, 2013
Последнее обновление: 11.05.2013