PSI-BLAST

Данная работа посвящена программе PSI-BLAST (Position-Specific Iterated BLAST), которая позволяет производить поиск гомологов из специфичных групп белков. Это происходит при использовании профилей PSSM (Position-specific scoring matrix), построенных на основе выравниваний уже найденных гомологов. Профиль – это матрица (таблица), показывающая вес каждой аминокислоты в данной позиции (вес наибольший при наибольшей частоте встречаемости данного остатка в определенной позиции, напротив – наименьший).

Итерация – организация обработки данных, при которой действия повторяются многократно. После каждого поиска гомологов профили корректируются относительно нового выравнивания (по новым профилям идет следующий профиль), т.е. алгоритм PSI-BLAST итеративен.

После каждой итерации пользователь PSI-BLAST должен по своему усмотрению выбирать гомологов из найденных хороших (с низким e-value) и плохих (с высоким e-value). Итерации должны продолжаться до того момента, когда разница между e-value наиболее и наименее удачных находок будет сильно заметна, т. е. в список «хороших» гомологов не будут попадать новые записи.

Итоговой целью поиска является создание семейства специфичных белков и сравнение результата с данными Pfam. Поэтому в каждую следующую интерацию не включаем находки с сильно высоким e-value и последовательности белков таксономически сильно далеких организмов.

В качестве исходной последовательности был взят гомолог белка человека (Homo Sapiens) BMP and activin membrane-bound inhibitor. BMP (bone morphogenetic protein) – один из факторов роста.

Информация о белке: ID -Q9NXZ6; AC - CAB89152.1; описание NCBI.

Запуск PSI-BLAST проводили с использованием банка данных nr. Некоторая информация о проделанных итерациях приведена в таблице 1.

Таблица 1. Информация об итерациях.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
 1  89  XP_002408568.1  0.004  XP_003427942.1  0.021
 2  95 XP_003427942.1  0.001 CBY24539.1 0.006
 3  100  CBY24539.1  0.003  AAC34382.1  0.017
 4  99 XP_003402273.1  0.005  CBY24539.1  0.007
 5  97  XP_003251656.1  0.004  XP_003701755.1  0.007
 6  95  XP_002408568.1  0.001  XP_003251656.1  0.022
7 94 XP_002408568.1 2.00E-04 XP_003427942.1 0.016
8 94 XP_002408568.1 2.00E-04 XP_003427942.1 0.016

Было получено выравнивание последовательностей, найденных с помощью работы PSI-BLAST. Оно представлено на рисунке 1.

Рис. 1. Выравнивание.

Сравнение выравнивания семейства домена из Pfam с полученным PSI-BLAST

Все последовательности из выравнивания содержат один домен BAMBI (BMP and activin membrane-bound inhibitor (BAMBI) N-terminal domain). В Pfam содержится 68 последовательностей с данным доменом. Очевидно, многих последовательностей банка nr просто нет в Pfam. Судя по таксономическому распределению этих последовательностей можно сказать, что результаты работы PSI-BLAST вполне удачные. Большая часть последовательностей из полученного выравнивания содержится в семействе Pfam. Рисунок с распределением представлен ниже.

taxons

Рис. 2. Таксномическое распределение последовательностей Pfam с доменом BAMBI.


Последнее изменение: 13-05-2013 (pankevich-ev)