Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) - это алгоритм предназначенный для поиска удаленных гомологов белков. При этом используется техника профилей, (таблиц, у которых в строках располагаются все возможные аминокислоты, а в столбцах - номера позиций в выравнивании). Значение в ячейке таблицы- это число, которое характеризует вес данной аминокислоты в данной позиции (чем чаще она встречается в этом месте в гомологах, тем больше ее вес).
Профили также используются для поиска новых гомологов; в этом и заключается итеративность алгоритма - по профилю нашли новое, по новому скорректировали профиль и опять - поиск.
Для поиска профиль выполняет те же функции, что и матрица BLOSUM в классическом алгоритме BLAST (т.е. профиль позволяет оценить вес выравниваний новых последовательностей с нужной нам и, конечно же, выявить лучшие хиты.)
Шаги алгоритма выглядят так:Поиск считается сошедшимся, если после очередной итерации список лучших находок не изменился (т.е. не изменилось и E-value) . Это означает, что профиль также не изменится, и следующая итерация даст тот же результат.
В качестве примера был выбран белок Q47404 (SwissProt_ID белка: Q47404_ECOLX). Для каждой итерации фиксировались идентификаторы "худшей из лучших" и "лучшей из худших" находок, их E-value, а также число лучших находок ( результаты представлены в таблице 1).
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 26 | YP_007565281.1 | 1e-06 | XP_002590897.1 | 1.4 |
2 | 27 | ZP_06997104.1 | 0.002 | ZP_09861231.1 | 0.011 |
3 | 28 | ZP_09861231.1 | 2e-05 | ZP_05913754.1 | 0.019 |
4 | 28 | ZP_09861231.1 | 1e-05 | ZP_05913754.1 | 0.017 |
5 | 28 | ZP_09861231.1 | 1e-05 | ZP_05913754.1 | 0.017 |
Как видно из данных, представленных в таблице 1, после первого раунда поиска было найдено 26 последовательностей с удовлетворительным E-value.Исходя из здравого смысла были отобраны новые последовательности для построения профиля. На втором раунде поиска было найдено уже хороших 27 хитов, E-value самого худшего из них лежал практически на границе с E-value по умолчанию. После 3го раунда поиска обнаружилось 28 хитов, также как после 4го и 5го раунда (5й раунд был проведен как контрольный, и как ожидалось, изменений не последовало) Также было построено множественное выравнивание итоговых 28 хитов (рисунок 1).
Увеличенное изображение можно посмотреть по этой ссылке
Анализируя множественное выравнивание можно сказать, что практически все последовательности достаточно схожи между собой.