Главная страница > Второй семестр > PSI-BLAST
С помощью программы BLASTP осуществлен поиск послеовательностей, сходных с последовательностью
леггемоглобина-1 Lupinus luteus (LGB1_LUPLU, код доступа P02239).
Параметры поиска приведены ниже:
Результаты поиска представлены в табл. 1. Ни один из белков кишечной палочки не удовлетворяет заданному порогу значений e-value.
Все найденные белки человека (CRNL1_HUMAN, MLH1_HUMAN и
FRAP_HUMAN) имеют достаточное большое значение e-value (от 5.8), при этом они не являются гомологами
леггемоглобина-1. По данным документа InterPro IPR001032,
леггемоглобин-1, состоящий из единственного домена, принадлежит к надсемейству глобинподобных белков
(IPR009050). Все найденные с помощью BLASTP белки
принадлежат к другим семействам (CRNL1_HUMAN к семейству crooked-neck белков процессинга РНК;
MLH1_HUMAN к семейству Mlh1 белков репарации некомплементарных пар оснований ДНК;
FRAP_HUMAN к надсемейству протеинкиназоподобных белков). Следовательно, они не являются гомологами леггемоглобина-1. Таким образом, среди белков человека и кишечной
палочки обнаружить гомологи не удалось.
Табл. 1. Результаты поиска гомологов белка LGB1_LUPLU (код доступа: P02239)
по банку SwissProt с помощью программы BLASTP.
|
лучшей находки |
лучшей находки |
идентичности |
выравнивания |
|
|
|
|
|
|
|
(Bacteria) |
|
|
|
|
|
coli K-12 |
|
|
|
|
|
(Metazoa) |
|
|
|
|
|
|
|
|
|
|
|
С помощью программы PSI-BLAST осуществлен поиск последовательностей, сходных с последовательностью
леггемоглобина-1 Lupinus luteus (LGB1_LUPLU, код доступа P02239).
Параметры поиска совпадают с параметрами поиска с помощью программы BLASTP и приведены ниже:
Пороговое значение e-value принято равным 0.005.
Результаты поиска представлены в табл. 2. На пятой итерации в списке значимых находок среди белков всех организмов перестали
появляться новые последовательности.
Табл. 2. Результаты итерационного поиск гомологов LGB1_LUPLU (код доступа: P02239)
по банку SwissProt с помощью программы PSI-BLAST.
итера- ции |
|
|
|
|||||||||
|
|
|||||||||||
чество* |
|
чество |
|
|
|
ности |
нивания |
|
|
ности |
нивания |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
* Указано количество находок с e-value, меньшим порогового значения (0.005).
** E-value последовательности CRNL1_HUMAN превосходит пороговое значение (0.005). Последовательностей с
e-value, меньшим 0.005, не найдено.
В результате проведения поиска последовательностей, сходных с последовательностью растительного белка LGB1_LUPLU, были выявлены гомологичные ему белки из различных организмов, в том числе принадлежащих отдаленным от Высших растений систематическим группам (например, Homo sapiens, царство Metazoa). Программа BLASTP при тех же параметрах не позволяет обнаружить гомологи из организмов этих таксонов. Следовательно, PSI-BLAST является инструментом для поиска отдаленных гомологов. Высокая чувствительность данного метода объясняется тем, что, начиная со второй итерации, поиск осуществляется с использованием профиля PSSM, который составлен по результату множественному выравниванию уже найденных последовательностей (Altschul et al., 1997). Таким образом, PSI-BLAST позволяет учитывать степень консервативности различных аминокислотных остатков входной последовательности, что минимизирует влияние различий по несущественным для функционирования белков остаткам на результаты поиска.
В связи с тем, что названия и значения e-value, процента идентичности, длины выравнивания для "лучших" находок первой итерации PSI-BLAST и BLASTP совпадают (табл. 1, 2), первая итерация PSI-BLAST представляет собой поиск с помощью программы BLASTP. Следует отметить, что такое сравнение может иметь смысл только при одинаковых значениях параметров поиска.
С помощью PSI-BLAST были найдены последовательности белков различных организмов, сходные с леггемоглобином-1 Lupinus luteus. Так как все найденные белки участвуют во взаимодействии с гемом (являются переносчиками кислорода), можно считать их гомологами. Среди находок присутствуют достаточно отдаленные гомологи леггемоглобина-1: различные гемоглобины, миоглобины и другие глобиновые белки животных, а также флавогемопротеины бактерий. Среди белков растительных организмов были выявлены леггемоглобины (глобиновые белки, участвующие в обеспечении комфортных условий для фиксации азота симбиотическими клубеньковыми бактериями) и несимбиотические гемоглобины (см. результаты пятой итерации поиска).
Рассмотрены изменения значений таких параметров "лучших" находок среди белков Escherichia coli K-12 и человека, как
e-value, процент идентичности и длина выравнивания. Начиная со второй итерации, "лучшей" (и единственной) находкой среди белков
Escherichia coli K-12 является последовательность HMP_ECOLI. На первой итерации не было
выявлено ни одной последовательности с e-value, удовлетворяющим заданному порогу (10).
Следует отметить тенденцию к увеличению значения e-value при переходе к следующим итерациям (до пятой итерации,
на которой в списке находок перестали появляться новые последовательности). Это увеличение можно объяснить тем, что на второй
итерации были найдены все 38 бактериальных гомологов леггемоглобина-1. Модификация профиля PSSM на каждой следующей итерации
осуществлялась за счет выявляемых небактериальных гомологов, что привело к некоторому ослаблению "сродства" профиля к бактериальным
белкам (то есть происходило уменьшение значимости позиций последовательностей, консервативных в пределах бактериальных организмов и
неконсервативных в пределах всех таксонов). Таким образом, увеличилось количество последовательностей смоделированной базы данных,
вес выравнивания которых равен весу HMP_ECOLI, что и привело к
увеличению значения e-value с каждой следующей итерацией. Изменения других параметров "лучшей" находки среди белков Escherichia coli K-12
процента идентичности и длины выравнивания незначительны и могут быть объяснены случайными причинами.
Изменения значений тех же параметров для "лучших" находок среди белков человека отличаются от описанных выше
изменений для белка HMP_ECOLI. Значения e-value уменьшаются до
четвертой итерации, а на пятой итерации незначительно возрастают. Возможно, это связано с ослаблением требований профилей к неконсервативным
аминокислотным остаткам последовательностей (при переходе от первой ко второй итерации с изменением метода вычисления веса выравнивания).
Уменьшение влияния неконсервативных аминокислотных остатков на вес выравнивания приводит к его возрастанию. Это является причиной
уменьшения значений e-value, так как происходит уменьшение числа последовательностей смоделированной базы данных, вес выравнивания которых
равен весу данной находки. Причины незначительного увеличения e-value на пятой итерации те же, что и для
HMP_ECOLI: модификация профиля осуществляется за счет новых последовательностей
из организмов, отдаленных от Homo sapiens (представителей типов Nematoda и Mollusca).
Увеличение длины выравнивания и уменьшение процента идентичности для лучших находок среди белков человека взаимосвязаны,
так как расширение рассмариваемого фрагмента последовательности находки путем присоединения к нему менее гомологичных участков приводит
к уменьшению значения процента идентичности. В свою очередь, увеличение длины выравнивания происходит в результате ослабления влияния
на вес выравнивания неконсервативных аминокислотных остатков (появляется возможность учитывать отдельные более консервативные остатки,
отделенные от участка выравнивания предыдущей итерации менее консервативными остатками).
Первую стратегию следует использовать при поиска всех последовательностей, гомологичных данной, или для выявления наиболее
консервативных (функционально важных) аминокислотных остатков. В этом случае составление профиля PSSM осуществляется по результатам
множественного выравнивания последовательностей всех таксонов. Поэтому наибольшее значение имеют только те позиции последовательностей,
которые наиболее важны для выполнения белком его функции (например, аминокислотные остатки активного центра). Это может служить критерием для их
выявления. Кроме того, данная стратегия позволяет найти максимальное количество гомологов входной последовательности из организмов
различных таксонов (см. выше).
Вторая стратегия может быть использована при поиске гомологов входной последовательности по протеомам организмов,
принадлежащих определенным таксонам. Так как построение профиля осуществляется по результатам множественного выравнивания
более сходных последовательностей, чем в первом случае, достаточно большое значение будут иметь также и те позиции последовательностей,
которые являются консервативными только в пределах данного таксона. Это сделает затруднительным нахождение гомологичных последовательностей
из организмов других таксонов, а также нахождение наиболее отдаленных паралогов (если поиск с помощью BLASTP не позволит выявить их на
первой итерации). Следовательно, вторая стратегия может служить инструментом для нахождения только близких гомологов среди организмов
данного таксона.
Для проверки приведенной выше гипотезы был проведен поиск последовательностей, сходных с последовательностью леггемоглобина-1
Lupinus luteus (LGB1_LUPLU, код доступа P02239). Перед запуском каждой следующей итерации
проводилась фильтрация найденных последовательнстей по царству Viridiplantae. После трех итераций
(когда в списке находок среди белков Высших растений перестали появляться новые последовательности)
таким способом были выявлены последовательности различных гемоглобинов, миоглобинов, глобиновых белков
Высших растений, которые являются относительно близкими гомологами леггемоглобина-1 (см. результаты поиска).
Количество находок среди белков животных и бактерий значительно меньше, чем при использовании первой стратегии
(соответственно 35 вместо 884 и 23 вместо 38, см. табл. 2). Таким образом, приведенная выше гипотеза подтверждается.
По данным записей SwissProt HBE_HUMAN,
HBG2_HUMAN и NGB_HUMAN,
в "лучших" находках среди белков человека (начиная со второй итерации), во взаимодействии с железом гема
участвуют два аминокислотных остатка: дистальный лиганд и проксимальный лиганд. Оба лиганда во всех последовательностях
представляют собой остатки гистидина (дистальный лиганд His63 или His64, проксимальный лиганд His92 или His96).
"Лучшая" находка среди белков человека по результатам первой итерации (CRNL1_HUMAN)
с гемом не взаимодействует и не является гомологом леггемоглобина-1 (см. выше, e-value для этой находки превышает пороговое значение 0.005).
В леггемоглобине-1 Lupinus luteus (LGB1_LUPLU) во взаимодействии
с железом гема также участвуют дистальный и проксимальный остатки гистидина (His63 и His97 соответственно). В "лучшей" находке
среди белков протеома Escherichia coli K-12 HMP_ECOLI
сохраняется только проксимальный остаток гистидина (His85).
Следовательно, дистальный и проксимальный лиганды очень консервативны. Это обусловлено тем, что они непосредственно участвуют
в выполнении белком его функции (координируют железо гема). При этом проксимальный лиганд является более консервативным, чем дистальный
(сохраняется в прокариотических гомологах). Возможно это связано с тем, что проксимальный гистидин, в отличие от дистального,
всегда связан с железом гема, а дистальный тогда, когда атом железа не взаимодействует с кислородом. Отсутствие дистального лиганда
может сильно повлиять на сродство гема к кислороду (повысить), но не приведет к полной потере белком способности выполнять его функции.
Поэтому дистальный гистидин является менее консервативным, чем проксимальный.
Профиль PSSM, составленный программой PSI-BLAST на пятой итерации, представляет собой матрицу,
состоящюю из 154 строк и 21 столбца (шестнадцатеричные коды ASCII профиля см. здесь).
Строки соответствует позициям последовательности леггемоглобина-1 Lupinus luteus.
Первые 20 столбцов несут информацию о весе обнаружения на каждой позиции находки каждого из 20-ти аминокислотных остатков.
Последний столбец содержит штрафы за делеции или вставки (Gribskov et al., 1987).
Данные профиля PSSM могут быть использованы для выявления наиболее консервативных (функционально важных) аминокислотных остатков.
Если вес некоторго аминокислотного остатка значительно превосходит веса других аминокислотных остатков той же позиции последовательности
леггемоглобина-1, то данный аминокислотный остаток является консервативным и функционально важным (например, входит в состав активного центра).
© Куравский Михаил Львович, 2006