Поиск гипотетических гомологов YojM_BacSu в разных банках

Поиск гомологов отражён в таблице 1.

Таблица 1. Результаты поиска гипотетических гомологов белка YojM_BACSU
  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (с последовательностью исходного белка)

Accession O31851 1S4I_B NP_389822
E-value 2*10-141 7*10-126 8*10-140
Вес (в битах) 399 356 399
Процент идентичности 100% 100% 100%

2. Число находок с E-value < 10–10

12 18 580

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 153 110 2771
Accession P36214.1 3ST9_A EHJ66050.1
E-value 0.39 0.42 0.95
Вес (в битах) 34.3 30.8 38.5
% идентичности 31 25 28
% сходства 48 42 43
Длина выравнивания 77 138 145
Координаты выравнивания (от-до, в запросе и в находке) 121-189 и 126-196 62-172 и 54-185 53-189 и 90-223
Число гэпов 14 33 19

С помошью BLASTP удалось найти исходный белок YojM_BacSu в базах данных Swiss-Prot и в "Non-redundant protein sequences", а также его структуру в базе PDB.

Число явных гомологов в разных базах данных различно. В Swiss-Prot содержатся данные только о детально изученных белках, поэтому здесь гомологов оказалось не так много - всего 12. PDB содержит данные о пространственной структуре белков, поэтому большого количества гомологов из PDB ждать не стоит. Однако их оказалось больше, чем в Swiss-Prot - 18. Это скорее всего связано с тем, что PDB может хранить структуру не только самого белка, но и его известных мутантов; если белок состоит из нескольких субъединиц, то для каждой может быть отведён свой идентификатор. С базой данных "nr" всё намного проще - это архив всей когда-либо известной информации о белках, в том числе полученной путём предсказания. В итоге из неё мы имеем целых 580 гомологов, но нет даже никакой гарантии, что мы имеем дело с правильными аминокислотными последовательностями.

В базах данных Swiss-Prot, PDB и "nr" было найденно соответственно 153, 110 и 2771 находок с E-value меньше 1. Число находок, естественно, было лимитировано значением E-value, в то время как предельный размер выдачи был изменён на максимальный (на всякий случай).

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Гомологи белка YojM_BacSu были найдены сразу же в царстве "Eukaryotae", причём среди них оказалось 8 хороших кандидатов, первым из которых оказался белок трематоды (информация о находке указана в таблице 2), а вторым - белок из риса. Напрашивается вывод, что исследуемый белок оказался более чем универсальным.

Таблица 2. Результаты поиска гипотетических гомологов белка YojM_BACSU с фильтром по таксонам
  Поиск по Swiss-Prot
Номер находки в списке описаний 1
Accession Q01137.1
E-value 6*10-13
Вес (в битах) 66.2
% идентичности 33%
% сходства 49%
Длина выравнивания 135
Координаты выравнивания (от-до, в запросе и в находке) 61-189 и 21-148
Число гэпов 13

BLAST двух последовательностей

С помощью программы BLASTP проведено выравнивание двух аминокислотных последовательностей белков YojM_BACSU и SODC_SCHMA, карта локального сходства которых приведена на рис.1-2 для различных значений E-value. Однако, т.к. белки оказались явными гомологами, то эти карты никак не различаются.


Рис.1 Карта локального сходства для E-value = 10

Рис.1 Карта локального сходства для E-value = 0.01

Сравнение результатов поиска с различными матрицами BLOSUM

Был произведён повторный поиск гомологов белка YojM_BacSu с фильтром по таксону "Eukaryota", но с другими процентами кластеризации матрицы BLOSUM - 45% и 90%. Для всех типов матриц с наибольшим E-value находится один и тот же белок из трематоды с AC Q01137.1. Однако в случае с матрицой BLOSUM90 меняется вторая находка (O49044.1 - белок Мезембриантемума), а при поиске с матрицей BLOSUM45 увеличивается количество находок явных гомологов: с 8 до 15. При этом поиск с матрицей BLOSUM90 даёт хиты с E-value > 1*10-10 (за исключением исходного белка).