На главную страницу второго семестра

Работа с программой PSI-BLAST.

  1. Поиск гомологов белка LGB1_LUPLU (P02239) программой BlastP в БД SwissProt.
        Параметры поиска:
     - учет особенностей аминокислотного состава (Compositional adjustments) - No adjustment (значение по умолчанию);
     - фильтрование областей низкой сложности - да (значение по умолчанию);
     - максимальное значение E-value - 10 (значение по умолчанию);
     - максимальное количество находок (Number of Descriptions) равно 1000.

    Таблица 1. Поиск гомологов белка LGB1_LUPLU (P02239) в БД SwissProt

      Кол-во E-value лучшей находки Название лучшей находки (ID) % идентичности Длина выравнивания Примечание
    Всего находок 117 5e-82 LGB1_LUPLU 100% 154 Лучшее выравнивание - с самим собой. Обеспечивает кислородом бактероидов (бактерии-сапрофиты), важен для симбиотической азотофикации.
    В бактериях (Bacteria) 36 1e-06 HMP_RHIME 29% 117 Есть находка HMP_BORPE с тем же E-value и Score. Оба белка участвуют в детоксикации NO в аэробных условиях.
    В Escherichia coli K-12 0  -  -  -  - Нет в Escherichia coli.
    В животных(Metazoa) 26 2e-06 NGB_BRARE 25% 141 Участвует в транспорте кислорода в мозге.
    В человеке 3 5.8 CRNL1_HUMAN 28% 78 Участвует в pre-mRNA сплайсинге.

      Комментарий: в E. coli гомологов нет, в человеке тоже нет (белок CRNL1_HUMAN имеет очеь высокое E-value).

  2. Поиск гомологов LGB1_LUPLU(P02239) в БД SwissProt программой PSI-BLAST.
  Параметры поиска те же (см. выше)
Номер итерации
Бактерии
Животные (Metazoa)
Характеристика лучшей находки среди белков
Escherichia coli, K-12
Homo sapiens sapiens
Кол-во
Новые
Кол-во
Новые
Название
E-value
% идентичности
Длина выравнивания
Название
E-value
% идентичности
Длина выравнивания
1
21 (36) 21 5 (26) 5  -  -  -  - CRNL1_HUMAN* 5.8 28% 78
2
38 (50) 17 332 (673) 327 HMP_ECO57 1e-29 20% 148 NGB_HUMAN 2e-19 21% 143
3
38 (48) 0 879(881?) (890) 547 HMP_ECO57 6e-28 20% 148 HBG2_HUMAN 8e-45 18% 150
4
38 (52) 0 884(886?) (896) 5 HMP_ECO57 2e-22 20% 143 HBE_HUMAN 4e-54 17% 154
5
38 (52) 0 884(887?) (894) 0 HMP_ECO57 2e-22 19% 143 HBE_HUMAN 9e-54 17% 154
*Не входит в список последовательностей с E-value выше чем 0,005.

Ответы на вопросы:

  1. Программу PSI-BLAST можно использовать для поиска "далеких" гомологов (гомологов из дальних таксонов). Программа ищет сходные фрагменты в белках из далеких в таксономическом отношении организмов. В результате среди находок могут оказаться белки, решающие сходные задачи у далеких по таксономии организмов; белки, разошедшиеся в одном организме (таксоне) для выполнения разных целей; белки, имеющие общее происхождение, но выполняющие в далеких организмах разные функции, а могут и не оказаться.


  2. Первая итерация PSI-BLAST делает то же самое, что и программа BlastP (делает локальные выравнивания данной последовательности с другими из какой-либо БД, а затем сортирует лучшие находки в зависимости от E-value).


  3. В результате упражнения №2 нам удалось найти предполагаемые гомологи. Находки содержат в себе домен Globin (Pfam ID PF00042), содержащий в себе гем и участвующий в связывании и/или транспорте кислорода. К семейству глобинов относятся гемоглобины (Hb) и миоглобины (Mg) из позвоночных животных, глобины беспозвоночных, леггемоглобины из растений и флавогемопротеины из бактерий. Рассмотрим лучшие находки в E.сoli и Homo sapiens. Белок HMP_ECO57 - флавогемопротеин, осуществляет утилизацию NO, в нем есть глобиновый домен, связывающий кислород, необходимый для данного процесса. Белок HBE_HUMAN - ε-субъединица гемоглобина (заменяет β-субъединицу у позвоночных на стадии эмбрионального развития).
    По результатам (E-value) можно сказать, что нам удалось найти белки, имеющие одинковые домены. Можно предположить, что белки гомологичны, но точно ответить на вопрос о гомологии можно лишь при анализе множественных выравниваний. Гемоглобин и леггемоглобин обеспечивают что-то кислородом; но флавогемопротеины в целом выполняют очень несхожую функцию (хотя для ее выполнения на определенном этапе нужно связывание кислорода), в себе они содержат и другие домены (в отличие от Hb, Mg и легHb, хотя бывают еще и бактериальные гемоглобины с одним доменом, более схожие с флавогемопротеинами, чем с Hb, Mg и легHb, например BAHG_VITST из Vitreoscilla - облегчает диффузию кислорода в условиях недостатка кислорода). Вероятно, флавогемопротеины эволюционно отделились очень рано.


  4.   На разных итерациях "лучшие находки" либо менялись, либо увеличивалось их E-value и уменьшалось сходство. У E.coli при первой итерации не было найдено гомологов. Затем на всех последующих итерациях находился белок HMP_ECO57 с увеличивающимся при 2-4-ых итерациях E-value, при пятой итерации E-value и сходство не изменились. Следует заметить, что на первой итерации лучшей находкой среди бактерий был гомолог HMP_RHIME.
      У человека при первой итерации был найден белок CRNL1_HUMAN - не гомолог. При второй итерации нашелся белок NGB_HUMAN - гомолог лучшей находки среди позвоночных при первой итерации, участвующий в транспорте кислорода в мозге. При третье итерации нашелся белок HBG2_HUMAN - γ-, а при четвертой и пятой - HBE_HUMAN - ε- субъединицы гемоглобина.
      При каждой итерации создавался профиль PSSM, по которому проводилась следующая итерация. Он создавася с учетом всех находок с E-value выше определенного порога, а не только лучшей находки, поэтому показатели лучшей находки ухудшались (если находка оставалась лучшей). Профиль также придавал больший вес консервативным участкам (в нашем случае домену Globin, а особенно - консервативным участкам в самом домене), поэтому белки, не ставшие лучшей находкой на предыдущей итерации из-за "бремени" каких-то несовпадающих, но незначимых участков, на следующей итерации вырывались в лидеры, т.к. профиль не придавал этим участкам особого значения.


  5.   Возможны 2 стратегии. Первая состоит в том, чтобы на каждой итерации вести поиск по всем организмам. Вторая состоит в том, чтобы после первой итерации отфильтровать находки по интересующему таксону, и затем запустить следующие итерации. В первом случае мы скорее всего найдем больше белков со значительными различиями, возможно дальних гомологов, т.к. профиль PSSM составляется по большому числу разнящихся находок. Во втором случае база из находок меньше, профиль PSSM жестче, находок будет меньше и они, вероятно, будут более схожи. Но, наверное, возможно возникновение других резльтатов (все зависит от эволюции белка).

  6.   
    БелокОстатки, контактирующие с гемом в белке
    CRNL1_HUMANНет гема в белке
    NGB_HUMANHis64 - дисталный, His96 - проксимальный
    HBG2_HUMANHis63 - дисталный, His92 - проксимальный
    HBE_HUMANHis63 - дисталный, His92 - проксимальный
    HMP_ECO57His85 - проксимальный, дистального нет
    LGB1_LUPLUHis63 - дисталный, His97 - проксимальный
      Рассмотрим глобальное и локальное выравнивания. На глобальном выравнивании дистальные гистидины в трех белках человека (гемоглобины и нейроглобин) оказываются в одной позиции; проксимальные гистидины в одной позиции в двух парах: два гемоглобина и нейроглобин и леггемоглобин, т.е. в гемоглобинах гистидины консервативны. Но более объективным было бы рассмотрение локальных выравниваний глобиновых доменов. Для рассмотрения взято эталонное выравнивание из БД Pfam. На нем в одной позиции оказались дистальные гистидины из β-гемоглобина мыши (гемоглобинов человека не было) и леггемоглобина, а также проксимальные из двух этих белков и даже из E.coli, т.е. на самом деле эти остатки более консервативны. Можно предположить, что гемоглобины - гомологи, леггемоглобин - тоже гомолог, но далекий, HMP_ECO57 - очень далекий гомолог или не гомолог вообще.
    Фрагмент глобального выравнивания
    Фрагмент эталонного выравнивания


  7.   Вот файл с профилем PSSM. В нем записана PSSM (position-specific scoring matrix - позиционно специфическая матрица весов) в кодах ASCII. Это можно вставить в окно PSSM при новом поиске в PSI-BLAST. Без предварительной обработки программой (например, blastpgp) простому смертному этот файл понять невозможно. Вообще PSSM представляет собой таблицу, в которой через определенные цифры показана вероятность существования каждой аминокислоты на каждом месте в последовательности.


    ©Хайруллин Альберт