PSI-BLAST. Добро пожаловать на учебный сайт Носиковой Екатерины:)

PSI-BLAST

Главная

Первый семестр

Второй семестр

Поиск семейств белков при помощи PSI-BLAST

Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) - это алгоритм предназначенный для поиска удаленных гомологов белков. При этом используется техника профилей, (таблиц, у которых в строках располагаются все возможные аминокислоты, а в столбцах - номера позиций в выравнивании). Значение в ячейке таблицы- это число, которое характеризует вес данной аминокислоты в данной позиции (чем чаще она встречается в этом месте в гомологах, тем больше ее вес).

Профили также используются для поиска новых гомологов; в этом и заключается итеративность алгоритма - по профилю нашли новое, по новому скорректировали профиль и опять - поиск.

Для поиска профиль выполняет те же функции, что и матрица BLOSUM в классическом алгоритме BLAST (т.е. профиль позволяет оценить вес выравниваний новых последовательностей с нужной нам и, конечно же, выявить лучшие хиты.)

Шаги алгоритма выглядят так:

1ая итерация:
- Обычный белок-белковый BLAST
- Построение профиля (PSSM) на основе множественного выравнивания находок с E-value < 0,005
PSSM используется для поиска на следующей итерации
Новые последовательности с E-value<0,005 добавляются в выравнивание, по которому строится новая PSSM
Снова поиск и так до тех пор, пока не сойдется

Поиск считается сошедшимся, если после очередной итерации список лучших находок не изменился (т.е. не изменилось и E-value) . Это означает, что профиль также не изменится, и следующая итерация даст тот же результат.

Применение PSI-BLAST

В качестве примера был выбран белок Q47404 (SwissProt_ID белка: Q47404_ECOLX). Для каждой итерации фиксировались идентификаторы "худшей из лучших" и "лучшей из худших" находок, их E-value, а также число лучших находок ( результаты представлены в таблице 1).
Таблица 1. Результаты PSI-BLAST для Q47404.
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки

1 26 YP_007565281.1 1e-06 XP_002590897.1 1.4

2 27 ZP_06997104.1 0.002 ZP_09861231.1 0.011

3 28 ZP_09861231.1 2e-05 ZP_05913754.1 0.019

4 28 ZP_09861231.1 1e-05 ZP_05913754.1 0.017

5 28 ZP_09861231.1 1e-05 ZP_05913754.1 0.017

**Таблица 1. Результаты PSI-BLAST для Q47404.**
Номер итерации	Число находок выше порога (0,005)	Идентификатор худшей находки выше порога	E-value этой находки	Идентификатор лучшей находки ниже порога	E-value этой находки
1	26	YP_007565281.1	1e-06	XP_002590897.1	1.4
2	27	ZP_06997104.1	0.002	ZP_09861231.1	0.011
3	28	ZP_09861231.1	2e-05	ZP_05913754.1	0.019
4	28	ZP_09861231.1	1e-05	ZP_05913754.1	0.017
5	28	ZP_09861231.1	1e-05	ZP_05913754.1	0.017

Как видно из данных, представленных в таблице 1, после первого раунда поиска было найдено 26 последовательностей с удовлетворительным E-value.Исходя из здравого смысла были отобраны новые последовательности для построения профиля. На втором раунде поиска было найдено уже хороших 27 хитов, E-value самого худшего из них лежал практически на границе с E-value по умолчанию. После 3го раунда поиска обнаружилось 28 хитов, также как после 4го и 5го раунда (5й раунд был проведен как контрольный, и как ожидалось, изменений не последовало) Также было построено множественное выравнивание итоговых 28 хитов (рисунок 1).

Рисунок 1. Выравнивание, содержащее последовательность Q47404. Использована стандартная окраска аминокислотных остатков ClustalX.

Увеличенное изображение можно посмотреть по этой ссылке

Анализируя множественное выравнивание можно сказать, что практически все последовательности достаточно схожи между собой.

PSI-BLAST

Главная Первый семестр Второй семестр

Поиск семейств белков при помощи PSI-BLAST

© Nosikova Kate, 2012

Главная

Первый семестр

Второй семестр