Работа с программой PSI-BLAST

Цель задания - сравнить программы PSI-BLAST и BLASTP по результатов поиска гомологов заданного белка.

Задание 1: провести с помощью программы BLASTP поиск гомологов белка LGB1_LUPLU (P02239) в БД SwissProt.

Поиск следует проводить по следующим параметрам:
   учет особенностей аминокислотного состава (Compositional adjustments) — без учёта (значение по умолчанию);
   фильтрование областей низкой сложности — присутствует (значение по умолчанию);
   максимальное значение E-value — 10 (значение по умолчанию).
Максимальное количество находок (Number of Descriptions ) принято равным 1000.

По результатам поиска заполнена таблица №1.

Таблица 1. Поиск гомологов белка LGB1_LUPLU (P02239) в БД SwissProt

Параметры программы blastp приведены выше.

  Кол-во E-value лучшей находки Название лучшей находки (ID ) Процент идентичности Длина выравнивания
Всего находок 117 5*10-82 LGB1_LUPLU 100% 154
В бактериях (Bacteria) 36 1*10-6 HMP_RHIME 29% 117
В Escherichia coli K-12 0        
В животных(Metazoa) 26 2*10-6 NGB_BRARE 25% 141
В человеке 3 5,8 CRNL1_HUMAN 28% 78

В результате поиска мы гомологов не нашли (для кишечной палочки никаких находок, для человека белок со слишком высоким E-value, т.е. находка может оказаться случайной)

Задание 2: провести с помощью программы PSI-BLAST поиск гомологов LGB1_LUPLU (P02239) в БД SwissProt.

Параметры поиска для более точного сравнения программ PSI-BLAST и BLASTP совпадают с параметрами, заданными в первом упражнении.

Результаты каждой итерации занесены в таблицу 2. Поиск вёлся до тех пор, пока в списке значимых находок не перестанут появляться новые последовательности.

По умолчанию программа PSI-BLAST строит профиль PSSM по последовательностям с E-value<0.005. В столбец "Кол-во" таблицы записано количество таких находок.
Значками "+" или "–" отмечено наличие или отсутствие новых последовательностей на каждой итерации.

Таблица 2. Итерационный поиск гомологов LGB1_LUPLU (P02239) в БД SwissProt с помощью программы PSI-BLAST
Параметры программы приведены выше.

Номер итерации
Бактерии
Животные
Характеристика лучшей находки среди белков
Escherichia coli, K-12
Homo sapiens sapiens
Кол-во
Новые
Кол-во
Новые
Название
E-value
Процент идентичности
Длина выравнивания
Название
E-value
% идентичности
Длина выравнивания
1
21 21+ 5 5+ - CRNL1_HUMAN 5,8 28% 78 а.о.
2
38 17+ 332 327+ HMP_ECOLI 1*10-29 20% 148 а.о. NGB_HUMAN 2*10-19 21% 143 а.о.
3
38 - 879 547+ HMP_ECOLI 6*10-28 20% 148 а.о. HBG2_HUMAN 8*10-45 18% 150 а.о.
4
38 - 884 5+ HMP_ECOLI 2*10-22 20% 143 а.о. HBE_HUMAN 5*10-54 17% 154 а.о.
5
38 - 884 - HMP_ECOLI 2*10-22 19% 143 а.о. HBE_HUMAN 7*10-54 17% 154 а.о.

Примечания: "Кол-во" находок - количество находок с E-value ниже 0,005. Белок CRNL1_HUMAN выписан как самый лучший среди человеческих белков, хотя он не удовлетворяет условиям поиска.

PSI-BLAST-программа, использующаяся для поиска схожих участков в белковых последовательностях. По мере выполнения программы создаётся PSSM-профиль (Было получено 5 матриц PSSM (Вы можете посмотреть их здесь))из множественного выравнивания, используемый для распознавания ключевых позиций консервативных аминокислот внутри мотива. При поиске последовательностей по профилю можно обнаружит родство между далёкими гомологами, что практически невозможно сделать при использовании программы BLASTP. На первой итерации программа PSI-BLAST проводит поиск белков-гомологов входной последовательности(как видно результаты первой итерации полностью совпадают с результатами, выданными программой BLASTP). Затем на основе множественного выравнивания найденнх последовательностей строится профиль, показывающий какие аминокислотные остатки могут быть консервативными. После этого производится поиск последовательностей по профилю. Если таковые имеются строится новое множественное выравнивание, с помощью которого профиль усовершенствуется. В результате выполнения программы PSI-BLAST для последовательности LGB1_LUPLU удалось найти схожие участки последовательности среди белков, взятых из разных организмов По мере выполнения задания у лучших находок менялись e-value, процент идентичности, длина выравнивания. Менялось также сама лучшая находка. В результате каждой итерации строился новый усовершенствованный профиль, в котором менялись частоты встречаемости различных аминокислотных остатков. Соответственно меняются и процент идентичности между последовательностью и профилем, и значение e-value. В результате увеличения частот встречаемости одних аминокислотных остатков и уменьшения встречаемости других могут меняться и сами находки. При поиске последовательностей по PSI-BLAST для входной последовательности белка LGB1_LUPLU поиск на каждой итерации вёлся по всем организмам. При поиске можно также сначала отфильтровать находки по интересующему таксону, и затем запустить следующие итерации. Результаты поиска в том и другом случае будут различаться. Во втором случае профиль строится для определённого таксона. Данный профиль специализирован для белков, взятых из организмов данного царства. В лучших находках с гемом контактируют следующие аминокислотные остатки домена Globin (по данным UniProt):

Выравнивание последовательностей доменов нас убеждает в родстве данных белков.

На главную страницу семестра


©Ларионов Дмитрий