Главная | Семестры | Проекты | Заметки | О себе | Полезные ссылки |
Задание 1. Поиск гипотетических гомологов изучаемого белка в разных банках.
Поиск по Swiss-Prot | Поиск по PDB | Поиск по "nr" | |
1. Лучшая находка (с последовательностью исходного белка) |
|||
Accession | P37960 | P37960 | P37960 |
E-value | 1e-109 | 9e-111 | 5e-108 |
Вес (в битах) | 315 bits | 315 bits | 315 bits |
Процент идентичности | 100% | 100% | 100% |
2. Число находок с E-value < 10–10 |
21 | 28 | 2129 |
3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1) |
|||
Номер находки в списке описаний | 64 | 38 | 3091 |
Accession | A1JT87 | Q9RZN1 (2C2J_A) | BAF44511 |
E-value | 0.91 | 1e-04 | 0.98 |
Вес (в битах) | 32.7 bits | 40.4 bits | 37.7 bits |
% идентичности | 34% | 24% | 24% |
% сходства | 51% | 47% | 44% |
Длина выравнивания | 54 | 145 | 127 |
Координаты выравнивания (от-до, в запросе и в находке) | 36-90; 65-119 | 3-152; 42-187 | 17-144; 546-666 |
Число гэпов | 2 | 6 | 10 |
Удалось ли найти исходный белок в Swiss-Prot и "nr", а его структуру в PDB? Да.
Сравните число явных гомологов (E-value < 1e-10) при поиске по разным БД и поясните возможные причины различий:
SwissProt: 21
PDB: 28
"nr": 2129
Самое маленькое количество находок в случае банка SwissProt можно объяснить тем, что там содержатся лишь проверенные последовательности. Но при этом непонятно, почему в PDB найдено больше гомологов (находки в PDB и SwissProt различаются значительно). В случае с "nr" большое количество находок ожидаемо, т.к. этот банк данных включает в себя все возможные (по идее) последовательности из различных источников.
Сколько всего находок и каков E-value самой последней находки? Чем было лимитировано число находок: значением E-value или заданным по умолчанию предельным размером выдачи?
Если смотреть по самой многочисленной выдаче ("nr"), то E-value = 10 (5000 нвходка). Это вызвано заданным числом запросов в 5000 и E-value=10. В случае, например, с SwissProt выдано 112 результатов, причем E-value последнего - 9.6. Т.к. задано большое число находок, то их число лимитировано заданным значением E-Value.
Задание 2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.
C помощью программы BLAST можно находить гомологи в определенных таксонах. Найден DNA protection during starvation protein в отделе Actinobacteria царства Bacteria в банке SwissProt. (в самом далеком таксоне).
Описание находки.
Номер находки в списке описаний: 1
Accession: A0R692 (DPS_MYCS2)
E-value: 9e-07
Вес (в битах): 45.1 bits
% идентичности: 26%
% сходства: 43%
Длина выравнивания: 139
Координаты выравнивания (от-до, в запросе и в находке): 13-152; 17-156
Число гэпов: 2
При поиске в "nr" находим putative metalloregulation DNA-binding stress protein [Atopobium vaginae PB189-T1-4] в отделе Actinobacteria царства Bacteria.
Описание находки.
Номер находки в списке описаний: 1
Accession: ZP_07319938.1
E-value: 2e-26
Вес (в битах): 103 bits
% идентичности: 40%
% сходства: 58%
Длина выравнивания: 137
Координаты выравнивания (от-до, в запросе и находке): 16-153, 9-147
Число гэпов: 1
При поиске в PDB находим Chain A, Crystal Structure Of The Second Dps From Mycobacterium Smegmatis в отделе Actinobacteria царства Bacteria<
Описание находки.
Номер находки в списке описаний: 1
Accession: 2Z90_A
E-value: 4e-13
Вес (в битах): 60.1 bits
% идентичности: 34%
% сходства: 50%
Длина выравнивания: 115
Координаты выравнивания (от-до, в запросе и находке): 35-150, 41-156
Число гэпов: 12
Задание 3. BLAST двух последовательностей
С помощью программы BLAST было получено выравнивание двух последовательностей. Чтобы охарактеризовать выравнивание, используются карты локального сходства, представленные ниже для разных значений E-value.
Plot of gi|1171021|sp|P37960.2|MRGA_BACSU vs gi|166234832|sp|A1JT87.1|MNME_YERE8
Рис.1. Карта локального сходства для выравнивания двух последовательностей с accession: P37960 и A0R692. E-value = 10.
Рис.2. Карта локального сходства для выравнивания двух последовательностей с accession: P37960 и A0R692. E-value = 0.01.
Таким образом, значение E-value не повлияло на карту локального сходства.
Задание 4. Сравнение результатов поиска с различными матрицами BLOSUM
Используем для поиска матрицу BLOSUM90. В банке "nr" найден putative metalloregulation DNA-binding stress protein [Atopobium vaginae PB189-T1-4] в отделе Actinobacteria царства Bacteria.
Описание находки:
Номер находки в списке описаний: 1
Accession: ZP_07319938.1
E-value: 5e-26
Вес (в битах): 113 bits
% идентичности: 40%
% сходства: 53%
Длина выравнивания: 137
Координаты выравнивания (от-до, в запросе и находке): 16-153, 9-147
Число гэпов: 1
В отличие от результата во втором задании, где при поиске была задана матрица BLOSUM62 значения E-value и вес выросли, а процент сходства упал. Это может быть вызвано тем, что уровень кластеризации вырос (90>62), а значит гораздо меньшее число выравниваний может считаться за одно и то же и объединяться. Это привело к тому, что заменять аминокислоты на другие стало менее выгодно, а значит положительный вес вырос.
Задание 5. Сравнение различных интерфейсов программы BLAST.
При использовании интерфейса сервера EMBL-EBI мне не понравилось то, что в поле запроса нужно вводить именно последовательность. В случае про граммы на сервере NCBI можно было также вводить accession number и gi. В случае с UniProt в поле запроса можно вводить как последовательность, так и идентификатор UniProt. Кроме того не было найдено поле изменения таксонов, только можно выбирать таксономические отделы банка данных.