Главная страница > Второй семестр > PSI-BLAST

PSI-BLAST

Поиск гомологов белка LGB1_LUPLU с помощью программы BLASTP

С помощью программы BLASTP осуществлен поиск послеовательностей, сходных с последовательностью леггемоглобина-1 Lupinus luteus (LGB1_LUPLU, код доступа P02239). Параметры поиска приведены ниже:

учет особенностей аминокислотного состава (compositional adjustments): не проводится

фильтрация областей низкой сложности (low complexity): включена

максимальное значение e-value: 10

максимальное количество находок: 1000

Результаты поиска представлены в табл. 1. Ни один из белков кишечной палочки не удовлетворяет заданному порогу значений e-value. Все найденные белки человека (CRNL1_HUMAN, MLH1_HUMAN и FRAP_HUMAN) имеют достаточное большое значение e-value (от 5.8), при этом они не являются гомологами леггемоглобина-1. По данным документа InterPro IPR001032, леггемоглобин-1, состоящий из единственного домена, принадлежит к надсемейству глобинподобных белков (IPR009050). Все найденные с помощью BLASTP белки принадлежат к другим семействам (CRNL1_HUMAN — к семейству crooked-neck белков процессинга РНК; MLH1_HUMAN — к семейству Mlh1 белков репарации некомплементарных пар оснований ДНК; FRAP_HUMAN — к надсемейству протеинкиназоподобных белков). Следовательно, они не являются гомологами леггемоглобина-1. Таким образом, среди белков человека и кишечной палочки обнаружить гомологи не удалось.

Табл. 1. Результаты поиска гомологов белка LGB1_LUPLU (код доступа: P02239)
по банку SwissProt с помощью программы BLASTP.

	Количество	e-value лучшей находки	Название лучшей находки	Процент идентичности	Длина выравнивания
Всего	117	5x10^–82	LGB1_LUPLU	100%	154
Бактерии (Bacteria)	36	10^–6	HMP_RHIME	29%	117
Escherichia coli K-12	—	—	—	—	—
Животные (Metazoa)	26	2x10^–6	NGB_BRARE	25%	141
Человек	3	5.8	CRNL1_HUMAN	28%	78

Итерационный поиск гомологов белка LGB1_LUPLU с помощью программы PSI-BLAST

С помощью программы PSI-BLAST осуществлен поиск последовательностей, сходных с последовательностью леггемоглобина-1 Lupinus luteus (LGB1_LUPLU, код доступа P02239). Параметры поиска совпадают с параметрами поиска с помощью программы BLASTP и приведены ниже:

учет особенностей аминокислотного состава (compositional adjustments): не проводится

фильтрация областей низкой сложности (low complexity): включена

максимальное значение e-value: 10

максимальное количество находок: 1000

Пороговое значение e-value принято равным 0.005. Результаты поиска представлены в табл. 2. На пятой итерации в списке значимых находок среди белков всех организмов перестали появляться новые последовательности.

Табл. 2. Результаты итерационного поиск гомологов LGB1_LUPLU (код доступа: P02239)
по банку SwissProt с помощью программы PSI-BLAST.

Номер итера- ции	Бактерии		Животные		Характеристика лучшей находки среди белков
	Бактерии		Животные		*Escherichia coli K-12*				Человек
	Коли- чество^*	Новые	Коли- чество	Новые	Название	e-value	% идентич- ности	Длина вырав- нивания	Название	e-value	% идентич- ности	Длина вырав- нивания
1	21	+	5	+	—	—	—	—	CRNL1_HUMAN^**	5.8	28%	78
2	38	+	332	+	HMP_ECOLI	10^-29	20%	148	NGB_HUMAN	2x10^-19	21%	143
3	38	–	879	+	HMP_ECOLI	6x10^-28	20%	148	HBG2_HUMAN	8x10^-45	18%	150
4	38	–	884	+	HMP_ECOLI	2x10^-22	20%	143	HBE_HUMAN	5x10^-54	17%	154
5	38	–	884	–	HMP_ECOLI	2x10^-22	19%	143	HBE_HUMAN	7x10^-54	17%	154

^* Указано количество находок с e-value, меньшим порогового значения (0.005).
^** E-value последовательности CRNL1_HUMAN превосходит пороговое значение (0.005). Последовательностей с e-value, меньшим 0.005, не найдено.

Для решения каких задач нужно использовать PSI-BLAST?

В результате проведения поиска последовательностей, сходных с последовательностью растительного белка LGB1_LUPLU, были выявлены гомологичные ему белки из различных организмов, в том числе принадлежащих отдаленным от Высших растений систематическим группам (например, Homo sapiens, царство Metazoa). Программа BLASTP при тех же параметрах не позволяет обнаружить гомологи из организмов этих таксонов. Следовательно, PSI-BLAST является инструментом для поиска отдаленных гомологов. Высокая чувствительность данного метода объясняется тем, что, начиная со второй итерации, поиск осуществляется с использованием профиля PSSM, который составлен по результату множественному выравниванию уже найденных последовательностей (Altschul et al., 1997). Таким образом, PSI-BLAST позволяет учитывать степень консервативности различных аминокислотных остатков входной последовательности, что минимизирует влияние различий по несущественным для функционирования белков остаткам на результаты поиска.

Что представляет собой первая итерация PSI-BLAST?

В связи с тем, что названия и значения e-value, процента идентичности, длины выравнивания для "лучших" находок первой итерации PSI-BLAST и BLASTP совпадают (табл. 1, 2), первая итерация PSI-BLAST представляет собой поиск с помощью программы BLASTP. Следует отметить, что такое сравнение может иметь смысл только при одинаковых значениях параметров поиска.

Что удалось найти с помощью PSI-BLAST?

С помощью PSI-BLAST были найдены последовательности белков различных организмов, сходные с леггемоглобином-1 Lupinus luteus. Так как все найденные белки участвуют во взаимодействии с гемом (являются переносчиками кислорода), можно считать их гомологами. Среди находок присутствуют достаточно отдаленные гомологи леггемоглобина-1: различные гемоглобины, миоглобины и другие глобиновые белки животных, а также флавогемопротеины бактерий. Среди белков растительных организмов были выявлены леггемоглобины (глобиновые белки, участвующие в обеспечении комфортных условий для фиксации азота симбиотическими клубеньковыми бактериями) и несимбиотические гемоглобины (см. результаты пятой итерации поиска).

Что происходило с "лучшими находками" на разных итерациях?

Рассмотрены изменения значений таких параметров "лучших" находок среди белков Escherichia coli K-12 и человека, как e-value, процент идентичности и длина выравнивания. Начиная со второй итерации, "лучшей" (и единственной) находкой среди белков Escherichia coli K-12 является последовательность HMP_ECOLI. На первой итерации не было выявлено ни одной последовательности с e-value, удовлетворяющим заданному порогу (10).
Следует отметить тенденцию к увеличению значения e-value при переходе к следующим итерациям (до пятой итерации, на которой в списке находок перестали появляться новые последовательности). Это увеличение можно объяснить тем, что на второй итерации были найдены все 38 бактериальных гомологов леггемоглобина-1. Модификация профиля PSSM на каждой следующей итерации осуществлялась за счет выявляемых небактериальных гомологов, что привело к некоторому ослаблению "сродства" профиля к бактериальным белкам (то есть происходило уменьшение значимости позиций последовательностей, консервативных в пределах бактериальных организмов и неконсервативных в пределах всех таксонов). Таким образом, увеличилось количество последовательностей смоделированной базы данных, вес выравнивания которых равен весу HMP_ECOLI, что и привело к увеличению значения e-value с каждой следующей итерацией. Изменения других параметров "лучшей" находки среди белков Escherichia coli K-12 — процента идентичности и длины выравнивания — незначительны и могут быть объяснены случайными причинами.
Изменения значений тех же параметров для "лучших" находок среди белков человека отличаются от описанных выше изменений для белка HMP_ECOLI. Значения e-value уменьшаются до четвертой итерации, а на пятой итерации незначительно возрастают. Возможно, это связано с ослаблением требований профилей к неконсервативным аминокислотным остаткам последовательностей (при переходе от первой ко второй итерации — с изменением метода вычисления веса выравнивания). Уменьшение влияния неконсервативных аминокислотных остатков на вес выравнивания приводит к его возрастанию. Это является причиной уменьшения значений e-value, так как происходит уменьшение числа последовательностей смоделированной базы данных, вес выравнивания которых равен весу данной находки. Причины незначительного увеличения e-value на пятой итерации те же, что и для HMP_ECOLI: модификация профиля осуществляется за счет новых последовательностей из организмов, отдаленных от Homo sapiens (представителей типов Nematoda и Mollusca).
Увеличение длины выравнивания и уменьшение процента идентичности для лучших находок среди белков человека взаимосвязаны, так как расширение рассмариваемого фрагмента последовательности находки путем присоединения к нему менее гомологичных участков приводит к уменьшению значения процента идентичности. В свою очередь, увеличение длины выравнивания происходит в результате ослабления влияния на вес выравнивания неконсервативных аминокислотных остатков (появляется возможность учитывать отдельные более консервативные остатки, отделенные от участка выравнивания предыдущей итерации менее консервативными остатками).

Возможны две стратегии. Первая состоит в том, чтобы на каждой итерации вести поиск по всем организмам. Вторая состоит в том, чтобы после первой итерации отфильтровать находки по интересному для Вас таксону, и затем запустить следующие итерации. Какие отличия можно ожидать в результатах?

Первую стратегию следует использовать при поиска всех последовательностей, гомологичных данной, или для выявления наиболее консервативных (функционально важных) аминокислотных остатков. В этом случае составление профиля PSSM осуществляется по результатам множественного выравнивания последовательностей всех таксонов. Поэтому наибольшее значение имеют только те позиции последовательностей, которые наиболее важны для выполнения белком его функции (например, аминокислотные остатки активного центра). Это может служить критерием для их выявления. Кроме того, данная стратегия позволяет найти максимальное количество гомологов входной последовательности из организмов различных таксонов (см. выше).
Вторая стратегия может быть использована при поиске гомологов входной последовательности по протеомам организмов, принадлежащих определенным таксонам. Так как построение профиля осуществляется по результатам множественного выравнивания более сходных последовательностей, чем в первом случае, достаточно большое значение будут иметь также и те позиции последовательностей, которые являются консервативными только в пределах данного таксона. Это сделает затруднительным нахождение гомологичных последовательностей из организмов других таксонов, а также нахождение наиболее отдаленных паралогов (если поиск с помощью BLASTP не позволит выявить их на первой итерации). Следовательно, вторая стратегия может служить инструментом для нахождения только близких гомологов среди организмов данного таксона.
Для проверки приведенной выше гипотезы был проведен поиск последовательностей, сходных с последовательностью леггемоглобина-1 Lupinus luteus (LGB1_LUPLU, код доступа P02239). Перед запуском каждой следующей итерации проводилась фильтрация найденных последовательнстей по царству Viridiplantae. После трех итераций (когда в списке находок среди белков Высших растений перестали появляться новые последовательности) таким способом были выявлены последовательности различных гемоглобинов, миоглобинов, глобиновых белков Высших растений, которые являются относительно близкими гомологами леггемоглобина-1 (см. результаты поиска). Количество находок среди белков животных и бактерий значительно меньше, чем при использовании первой стратегии (соответственно 35 вместо 884 и 23 вместо 38, см. табл. 2). Таким образом, приведенная выше гипотеза подтверждается.

Определить, какие остатки контактируют с гемом в "лучших" находках среди белков человека. Проверить, сохраняются ли эти аминокислотные остатки в LGB1_LUPLU, а также в "лучшей" находке среди белков Escherichia coli K-12. Сделать выводы из полученных результатов.

По данным записей SwissProt HBE_HUMAN, HBG2_HUMAN и NGB_HUMAN, в "лучших" находках среди белков человека (начиная со второй итерации), во взаимодействии с железом гема участвуют два аминокислотных остатка: дистальный лиганд и проксимальный лиганд. Оба лиганда во всех последовательностях представляют собой остатки гистидина (дистальный лиганд — His63 или His64, проксимальный лиганд — His92 или His96). "Лучшая" находка среди белков человека по результатам первой итерации (CRNL1_HUMAN) с гемом не взаимодействует и не является гомологом леггемоглобина-1 (см. выше, e-value для этой находки превышает пороговое значение 0.005).
В леггемоглобине-1 Lupinus luteus (LGB1_LUPLU) во взаимодействии с железом гема также участвуют дистальный и проксимальный остатки гистидина (His63 и His97 соответственно). В "лучшей" находке среди белков протеома Escherichia coli K-12 — HMP_ECOLI — сохраняется только проксимальный остаток гистидина (His85).
Следовательно, дистальный и проксимальный лиганды очень консервативны. Это обусловлено тем, что они непосредственно участвуют в выполнении белком его функции (координируют железо гема). При этом проксимальный лиганд является более консервативным, чем дистальный (сохраняется в прокариотических гомологах). Возможно это связано с тем, что проксимальный гистидин, в отличие от дистального, всегда связан с железом гема, а дистальный тогда, когда атом железа не взаимодействует с кислородом. Отсутствие дистального лиганда может сильно повлиять на сродство гема к кислороду (повысить), но не приведет к полной потере белком способности выполнять его функции. Поэтому дистальный гистидин является менее консервативным, чем проксимальный.

Описание файла с профилем PSSM

Профиль PSSM, составленный программой PSI-BLAST на пятой итерации, представляет собой матрицу, состоящюю из 154 строк и 21 столбца (шестнадцатеричные коды ASCII профиля см. здесь). Строки соответствует позициям последовательности леггемоглобина-1 Lupinus luteus. Первые 20 столбцов несут информацию о весе обнаружения на каждой позиции находки каждого из 20-ти аминокислотных остатков. Последний столбец содержит штрафы за делеции или вставки (Gribskov et al., 1987).
Данные профиля PSSM могут быть использованы для выявления наиболее консервативных (функционально важных) аминокислотных остатков. Если вес некоторго аминокислотного остатка значительно превосходит веса других аминокислотных остатков той же позиции последовательности леггемоглобина-1, то данный аминокислотный остаток является консервативным и функционально важным (например, входит в состав активного центра).