Отчет по работе с программой PSI-BLAST

Поиск гомологов белка LGB1_LUPLU (P02239) в БД SwissProt при помощи программы BLASTP

Параметры программы blastp:
   учет особенностей аминокислотного состава (Compositional adjustments) — No adjustments;
   фильтрование областей низкой сложности — Да;
   максимальное значение E-value — 10;
   максимальное количество находок (Number of Descriptions) - 1000.

Кол-во E-value лучшей находки Название лучшей находки (ID ) % идентичности Длина выравнивания

Всего находок 117 5 * 10^-82 LGB1_LUPLU 100% 154

В бактериях (Bacteria) 36 1 * 10^-6 HMP_RHIME 29% 117

В Escherichia coli K-12 — — — — —

В животных (Metazoa) 26 2 * 10^-6 NGB_BRARE 25% 141

В человеке 3 5,8 CRNL1_HUMAN 28% 78

Итерационный поиск гомологов LGB1_LUPLU (P02239) в БД SwissProt с помощью программы PSI-BLAST

Номер итерации

Бактерии

Животные

Характеристика лучшей находки среди белков

Escherichia coli, K-12

Homo sapiens sapiens

Кол-во^*

Новые^**

Кол-во^*

Новые^**

Название

E-value

% идент

Длина выр-ния

Название

E-value

% идент.

Длина выр-ния

1
21 (36) + (21) 5 (26) + (5) — — — — CRNL1_HUMAN 5,8 28% 78

2
38 (50) + (17) 332 (673) + (327) HMP_ECOLI 1 * 10^-29 20% 148 NGB_HUMAN 2 * 10^-19 21% 143

3
38 (46) - 879 (890) + (547) HMP_ECOLI 6 * 10^-28 20% 148 HBG2_HUMAN 8 * 10^-45 18% 150

4
38 (52) - 884 (896) + (5) HMP_ECOLI 2 * 10^-22 20% 143 HBE_HUMAN 5 * 10^-54 17% 154

5
38 (51) - 884 (895) - HMP_ECOLI 2 * 10^-22 20% 143 HBE_HUMAN 5 * 10^-54 17% 154

^* - в этом столбике общее число находок указано в скобках, без скобок указано число находох, чье e-value превышает второй порог (0,005).
^** - в этом столбике + (-) указывает на наличие (отсутствие) новых находок, число в скобках на их количество при наличии.

PSI-BLAST используется для поиска отдаленных гомологов, которые по различным причинам не находятся в BLASTP. А также для уточнения функций данного семейства белков. PSI-BLAST - это модифицированная программа BLASTP, которая путем последовательных итераций ( приближения) уточняет профиль (position specific scoring matrix (PSSM)).
Первая итерация PSI-BLAST представляет собой простое применение программы BLASTP. Тем не менее после первой итерации в PSI-BLAST строится профиль PSSM.
В результате выполнения второго упражнения были обнаружены отделенные гомологи белка LGB1_LUPLU (Леггемоглобин из желтого люпина). Так программа BLASTP не обнаружила ни одного гомолога данного белка у E.coli, в то время как PSI-BLAST обнаружил гомологи уже после второй итерации. Находка среди белков человека после первой итерации, возможно, не является биологически осмысленной, так как у нее "плохое" e-value (а также функции белка CRNL1_HUMAN сильно отличаются от функции LGB1_LUPLU)
Ввиду того, что профиль постоянно уточняется, "лучшие находки" могут меняться. Меняется e-value находок, причем даже если одна и та же находка на протяжении нескольких итерации остается "лучшей" e-value все равно может меняться.
(*) Возможны 2 стратегии. Первая состоит в том, чтобы на каждой итерации вести поиск по всем организмам. Вторая состоит в том, чтобы после первой итерации отфильтровать находки по интересному для Вас таксону, и затем запустить следующие итерации.
     Различия в результатах при использовании различных стратегий будут иметь место. После первой итерации программа составит профиль PSSM, который будет дорабатывать последующими итерациями.
     В первом случае профиль будет дорабатываться по выравниванию последовательностей белков из всех найденных организмов.
     Во втором же случае улучшение профиля будет происходить только на основании выборки последовательностей из одного конкретного таксона. Вполне вероятно, что в пределах данного таксона последовательности будет иметь некоторую особенность, которая очень сильно повлияет на профиль PSSM. В случае, когда итерации проводят по всем организмам эта особенность, возможно, не так сильно сказалась бы на профиле, ввиду большого числа последовательностей из других организмов, в которой ее нет. В случае второй стратегии, мы ограничивает общность.
     Нельзя сказать, что какая-то из этих стратегий хуже. Их нужно применять в зависимости от поставленной задачи. Когда нужно поискать дальнего гомолога в определенном таксоне, возможно, вторая стратегия предпочтительнее. При выборе стратегии важно определится в самом начале и не смешивать два стратегии в процессе поиска, в противном случае результат будет неинформативен (очень интересным, но бесполезным).

(*) Остатки контактирующие с гемом в "лучших находках".

Белки человека (HUMAN)
CRNL1_HUMAN	Нет контакта с гемом
NGB_HUMAN	His64 - дистальный, His96 - проксимальный
HBG2_HUMAN	His63 - дистальный, His92 - проксимальный
HBE_HUMAN	His63 - дистальный, His92 - проксимальный
Белок кишечной палочки (ECOLI)
HMP_ECOLI	His85 - проксимальный
Белок желтого люпина (LUPLU)
LGB1_LUPLU	His63 - дистальный, His97 - проксимальный

Таким образом, CRNL1_HUMAN, не является гомологом леггемогемоглобина ("плохой" e-value), поэтому контактов с гемом нет (гема там, в общем-то, тоже нет; и функцию он выполняет совсем другую, чем LGB1_LUPLU и найденные белки). У остальных рассматриваемых белков человека и желтого люпина дистальный остаток гистидина находится в 63 или 64 позиции, а проксимальный в 92, 93 или 96 позициях. Из этого можно сделать вывод, что остатки белка, которые контактируют с гемом достаточно консервативные. В отличии от эукариот, у E.coli есть проксимальный, но нет дистального остатка гистидина, контактирующего с гемом, очевидно, он появился в эволюции позднее.

(**)Профиль PSSM. Профиль PSSM (position specific scoring matrix) - вещь очень важная. Вся работа PSI-BLAST построена на составлении и улучшении этого профиля. Матрица создается на основании некоторого количества последовательностей, которые были предварительно выравнены. Та матрица, которую можно получить во время поиска представляет из себя печальное зрелище, прежде всего потому что это шестнадцатиричный код, выписанный на несколько страниц, понять в котором ничего здоровому человеку не представляется возможным. Тем не менее, это написано не для человека, а для программы PSI-BLAST. Для человека есть статья Profile analysis: Detection of distantly related proteins (Michael Gribskov, Andrew В. McLachlan, David Eisenberg), где все про эту матрицу написано.
Матрица представляет из таблицу, где первый столбец представляет консенсусную последовательность, а в первой строке по горизонтали выписаны все 20 аминокислоты, 21 столбик - штраф за вставку или делецию. Таблица заполнена числами, отвечающими весу замен в каждой позиции. После каждой итерации профиль PSSM дорабатывается, что позволяется повышать чувствительность поиска.
Профили PSSM на разных итерациях:

PSSM1
PSSM2
PSSM3
PSSM4
PSSM5

* Кстати, сохраненный профиль PSSM можно использовать в программах BLASTP и PSI-BLAST, вставив профиль в соответствующее окошко на первой странице поиска.

	Кол-во	E-value лучшей находки	Название лучшей находки (ID )	% идентичности	Длина выравнивания
Всего находок	117	5 * 10^-82	LGB1_LUPLU	100%	154
В бактериях (Bacteria)	36	1 * 10^-6	HMP_RHIME	29%	117
В Escherichia coli K-12	—	—	—	—	—
В животных (Metazoa)	26	2 * 10^-6	NGB_BRARE	25%	141
В человеке	3	5,8	CRNL1_HUMAN	28%	78

Номер итерации	Бактерии		Животные		Характеристика лучшей находки среди белков
	Бактерии		Животные		Escherichia coli, K-12				Homo sapiens sapiens
	Кол-во^*	Новые^**	Кол-во^*	Новые^**	Название	E-value	% идент	Длина выр-ния	Название	E-value	% идент.	Длина выр-ния
1	21 (36)	+ (21)	5 (26)	+ (5)	—	—	—	—	CRNL1_HUMAN	5,8	28%	78
2	38 (50)	+ (17)	332 (673)	+ (327)	HMP_ECOLI	1 * 10^-29	20%	148	NGB_HUMAN	2 * 10^-19	21%	143
3	38 (46)	-	879 (890)	+ (547)	HMP_ECOLI	6 * 10^-28	20%	148	HBG2_HUMAN	8 * 10^-45	18%	150
4	38 (52)	-	884 (896)	+ (5)	HMP_ECOLI	2 * 10^-22	20%	143	HBE_HUMAN	5 * 10^-54	17%	154
5	38 (51)	-	884 (895)	-	HMP_ECOLI	2 * 10^-22	20%	143	HBE_HUMAN	5 * 10^-54	17%	154