Программма BLAST

Поиск гипотетических гомологов изучаемого белка в разных банках


При описании BLAST объектом применения программы снова будет являться бактериальная аденилат киназа KAD_BACSU. Ниже приведена таблица результатов поиска KAD_BACSU в трех базах данных через BLAST.

  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (с последовательностью исходного белка)

Accession P16304 3DL0_A (цепь А) NP_388018.1
E-value 9e-157 1e-156 4e-155
Вес (в битах) 440 436 440
Процент идентичности 100% 100% 100%

2. Число находок с E-value < 10–10

661 42 20000

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 737 45 20000
Accession Q9UZJ6.1 1Q3T CCG18940.1
E-value 0,98 0,67 2e-61
Вес (в битах) 33,1 30,8 202
% идентичности 29% 32% .
% сходства 47% 56% .
Длина выравнивания 59 50 .
Координаты выравнивания (от-до, в запросе и в находке) 3-61 в запросе, 8-63 в находке 1-48 в запросе, 17-66 в находке .
Число гэпов 3 2 .

Исходный белок в базах nr и SwissProt найти удалось, а вот в PDB он представлен в виде 2ух цепей (А и B), а не как единая струкутра.

SwissProt PDB nr
Число явных гомологов 661 41 20000
Общее количество находок 797 60 20000
E-value последней находки 9,8 7,6 2e-61
Лимитирующий фактор запроса E-value E-value Предельный размер выдачи

Такие результаты связаны с особенностями выбранных баз данных. PDB - самая маленькая из них, она содержит только реально существующие белки, у которых описана полная структура, SwissProt содержит только реальные белки, а nr содержит еще и предсказанные белки.

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Исходный белок имеет множество гомологов в огромном количестве разнообразнейших таксонов. Но, как видно на рисунке 1, филогенетически дальше всего от исходного белка находятся эукариотные гомологи (Eukaryota). Изменением параметра "organism" в BLAST можно найти эти гомологи.


Рисунок 1. Распределение гомологов KAD_BACSU по таксонам.


В поиске по SwissProt нашлось всего 248 белков, из них с E-value < 0,001 134 находки. Большинство из найденных белков это тоже аденилат киназы (и называются они так). Но есть пара интересных находок в пределах E-value < 0,001 (эти белки еще можно считать гипотетическими гомологами) - это несколько белков жгутика сперматозоида и белок индуцирующий гидроцефалию. Это показательно в отношении того, насколько белки, имеющие общие эволюционные корни, могут различаться у разных групп организмов.

Возьмем "лучший" гомолог из найденных в Eukaryota, информация о нем представлена в таблице ниже:

"Лучший" гомолог в Eukaryota (E-value < 0,001)

  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"*
Номер находки в списке описаний 1 1 1
Accession Q08480.1 3BE4_A XP_001122889.2
E-value 1e-68 1e-63 3e-76
Вес (в битах) 215 199 240
% идентичности 47% 48% 54%
% сходства 69% 65% 71%
Длина выравнивания 212 211 215
Координаты выравнивания (от-до, в запросе и в находке) 2-213 в запросе, 32-243 в находке 2-212 в запросе, 7-217 в находке 4-216 в запросе, 1-215 в находке
Число гэпов 0 0 0
*Следует отметить, что лучший гомолог из "nr" - предсказанный белок.

BLAST двух последовательностей

Составим парное выравнивание исходного белка и гомолога по SwissProt.


Рисунок 2.Выравнивание последовательностей при пороге e-value 10.

Рисунок 3.Выраванивание последовательностей при пороге e-value 0,01.

Сравнение результатов поиска с различными матрицами BLOSUM

Проведем поиск гомолога в SwissProt (аналогично второму разделу, взяв вместо матрицы BLOSUM62 матрицу BLOSUM90.

  Матрица BLOSUM62 Матрица BLOSUM90
Номер находки в списке описаний 1 1
Accession Q08480.1 Q08480.1
E-value! 1e-68 4e-65
Вес (в битах)! 215 220
% идентичности 47% 47%
% сходства ! 69% 63%
Длина выравнивания 212 212
Координаты выравнивания (от-до, в запросе и в находке) 2-213 в запросе, 32-243 в находке 2-213 в запросе, 32-243 в находке
Число гэпов 0 0


Видно, что изменилось три параметра: e-value, % сходства и вес. Эти изменения естественно вытекают из замены матрицы. У аминокислотных замен в новой матрице новый вес, поэтому вес выравнивания другой. Процент сходства по новой матрице меньше, это значит, что некоторые амнокислотные замены, считавшиеся в BLOSUM62 относительно равносильными, в BLOSUM90 уже таковыми не являются.

Сравнение различных интерфейсов программы BLAST

В интерфейсах BLAST на EMBL-EBI и UniProt существенно меньше параметров, которые можно было бы менять, так как на этих серверах BLAST - вспомогательный инструмент. Так что лично мне видны только недостатки.
На EMBL-EBI неудобно (на мой взгляд) устроен выбор базы данных, можно выбрать только blastp или blastx (а ведь их больше) и нет фильтра таксонов. Зато мне понравилось, как ввод запроса разбит на шаги.
На сайте UniProt вообще почти ничего нет. Нет фильтров по таксонам, матрицу можно выбрать всего из 7и вариантов, нельзя задать штраф за гэп и т. д.

Главная страница Первый семестр Второй семестр Обо мне Ссылки

© Марк Меерсон, 2013
Последнее обновление: 12.04.2013