BLAST

Главная Семестры Проекты Заметки О себе Полезные ссылки



Задание 1. Поиск гипотетических гомологов изучаемого белка в разных банках.

  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (с последовательностью исходного белка)

Accession P37960 P37960 P37960
E-value 1e-109 9e-111 5e-108
Вес (в битах) 315 bits 315 bits 315 bits
Процент идентичности 100% 100% 100%

2. Число находок с E-value < 10–10

21 28 2129

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 64 38 3091
Accession A1JT87 Q9RZN1 (2C2J_A) BAF44511
E-value 0.91 1e-04 0.98
Вес (в битах) 32.7 bits 40.4 bits 37.7 bits
% идентичности 34% 24% 24%
% сходства 51% 47% 44%
Длина выравнивания 54 145 127
Координаты выравнивания (от-до, в запросе и в находке) 36-90; 65-119 3-152; 42-187 17-144; 546-666
Число гэпов 2 6 10


Удалось ли найти исходный белок в Swiss-Prot и "nr", а его структуру в PDB? Да.

Сравните число явных гомологов (E-value < 1e-10) при поиске по разным БД и поясните возможные причины различий:

SwissProt: 21
PDB: 28
"nr": 2129

Самое маленькое количество находок в случае банка SwissProt можно объяснить тем, что там содержатся лишь проверенные последовательности. Но при этом непонятно, почему в PDB найдено больше гомологов (находки в PDB и SwissProt различаются значительно). В случае с "nr" большое количество находок ожидаемо, т.к. этот банк данных включает в себя все возможные (по идее) последовательности из различных источников.

Сколько всего находок и каков E-value самой последней находки? Чем было лимитировано число находок: значением E-value или заданным по умолчанию предельным размером выдачи?

Если смотреть по самой многочисленной выдаче ("nr"), то E-value = 10 (5000 нвходка). Это вызвано заданным числом запросов в 5000 и E-value=10. В случае, например, с SwissProt выдано 112 результатов, причем E-value последнего - 9.6. Т.к. задано большое число находок, то их число лимитировано заданным значением E-Value.

Задание 2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.

C помощью программы BLAST можно находить гомологи в определенных таксонах. Найден DNA protection during starvation protein в отделе Actinobacteria царства Bacteria в банке SwissProt. (в самом далеком таксоне).

Описание находки.

Номер находки в списке описаний: 1

Accession: A0R692 (DPS_MYCS2)

E-value: 9e-07

Вес (в битах): 45.1 bits

% идентичности: 26%

% сходства: 43%

Длина выравнивания: 139

Координаты выравнивания (от-до, в запросе и в находке): 13-152; 17-156

Число гэпов: 2

При поиске в "nr" находим putative metalloregulation DNA-binding stress protein [Atopobium vaginae PB189-T1-4] в отделе Actinobacteria царства Bacteria.

Описание находки.

Номер находки в списке описаний: 1

Accession: ZP_07319938.1

E-value: 2e-26

Вес (в битах): 103 bits

% идентичности: 40%

% сходства: 58%

Длина выравнивания: 137

Координаты выравнивания (от-до, в запросе и находке): 16-153, 9-147

Число гэпов: 1

При поиске в PDB находим Chain A, Crystal Structure Of The Second Dps From Mycobacterium Smegmatis в отделе Actinobacteria царства Bacteria<

Описание находки.

Номер находки в списке описаний: 1

Accession: 2Z90_A

E-value: 4e-13

Вес (в битах): 60.1 bits

% идентичности: 34%

% сходства: 50%

Длина выравнивания: 115

Координаты выравнивания (от-до, в запросе и находке): 35-150, 41-156

Число гэпов: 12

Задание 3. BLAST двух последовательностей


С помощью программы BLAST было получено выравнивание двух последовательностей. Чтобы охарактеризовать выравнивание, используются карты локального сходства, представленные ниже для разных значений E-value.

Plot of gi|1171021|sp|P37960.2|MRGA_BACSU vs gi|166234832|sp|A1JT87.1|MNME_YERE8



Рис.1. Карта локального сходства для выравнивания двух последовательностей с accession: P37960 и A0R692. E-value = 10.



Рис.2. Карта локального сходства для выравнивания двух последовательностей с accession: P37960 и A0R692. E-value = 0.01.

Таким образом, значение E-value не повлияло на карту локального сходства.

Задание 4. Сравнение результатов поиска с различными матрицами BLOSUM

Используем для поиска матрицу BLOSUM90. В банке "nr" найден putative metalloregulation DNA-binding stress protein [Atopobium vaginae PB189-T1-4] в отделе Actinobacteria царства Bacteria.

Описание находки:
Номер находки в списке описаний: 1

Accession: ZP_07319938.1

E-value: 5e-26

Вес (в битах): 113 bits

% идентичности: 40%

% сходства: 53%

Длина выравнивания: 137

Координаты выравнивания (от-до, в запросе и находке): 16-153, 9-147

Число гэпов: 1

В отличие от результата во втором задании, где при поиске была задана матрица BLOSUM62 значения E-value и вес выросли, а процент сходства упал. Это может быть вызвано тем, что уровень кластеризации вырос (90>62), а значит гораздо меньшее число выравниваний может считаться за одно и то же и объединяться. Это привело к тому, что заменять аминокислоты на другие стало менее выгодно, а значит положительный вес вырос.

Задание 5. Сравнение различных интерфейсов программы BLAST.

При использовании интерфейса сервера EMBL-EBI мне не понравилось то, что в поле запроса нужно вводить именно последовательность. В случае про граммы на сервере NCBI можно было также вводить accession number и gi. В случае с UniProt в поле запроса можно вводить как последовательность, так и идентификатор UniProt. Кроме того не было найдено поле изменения таксонов, только можно выбирать таксономические отделы банка данных.