BLAST

Задание 1. Поиск гипотетических гомологов изучаемого белка в разных банках

  Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (последовательность исходного белка)

Accession P25052 1YAF NP_389047
E-value 3e-177 6e-178 1e-175
Вес (в битах) 493 bits 493 bits 493 bits
Процент идентичности 100% 100% 100%

2. Число находок с E-value < e*10–10

14 13 1575

3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)

Номер находки в списке описаний 17 17 2049
Accession Q3AC10 1RTW EIF46038
E-value 0.24 2e-04 0.96
Вес (в битах) 35.8 bits 41.6 bits 39.3 bits
% идентичности 30% 25% 22%
% сходства 52% 40% 41%
Длина выравнивания 63 221 214
Координаты выравнивания (от-до, в запросе и в находке) запрос: 137-199; находка: 110-171 запрос: 3-217; находка: 2-210 запрос: 23-214; находка: 358-569
Число гэпов 1 18 24


Удалось ли найти исходный белок в Swiss-Prot и "nr", а его структуру в PDB? Да, удалось, правда Accession в PDB и "nr" не совпадали с AC исходного белка, но я зашла в Uniprot и убедилась, что это именно мой белок:)

Сравните число явных гомологов (E-value < 1e-10) при поиске по разным БД и поясните возможные причины различий:

SwissProt: 14
PDB: 13
"nr": 1575

Количество находок при поиске в SwissProt и PDB отличаются всего на 1 (можно заметить, что 14я находка в PDB совсем чуть-чуть больше, чем 1e-10) их достаточно мало, так как в этих банках содержатся лишь проверенные последовательности. В случае с "nr" большое количество находок вполне ожидаемо, это связано с тем, что "nr" включает в себя все возможные последовательности из различных источников.

Сколько всего находок и каков E-value самой последней находки? Чем было лимитировано число находок: значением E-value или заданным по умолчанию предельным размером выдачи?

Количество находок:

SwissProt: 25; E-value: 8.9
PDB: 31; E-value: 9.2
"nr": 2105; E-value: 9.4

Если проанализировать количество находок из каждого банка данных, можно легко убедиться, что число найденных последовательностей лимитировано заданным значением E-Value. (для этого были заданы параметры Max target sequences:5000; Expect threshold:10). Тоже самое касается поиска со значениями представленными в таблице.

Задание 2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Найден гомолог Putative hydroxymethylpyrimidine/phosphomethylpyrimidine kinase 2 в царстве Eukaryota

Описание находки

Номер находки в списке описаний: 1

Accession: O94266

E-value: 6e-12

Вес (в битах): 66.6 bits

% идентичности: 26%

% сходства: 44%

Длина выравнивания: 206

Координаты выравнивания : запрос: 15-213; находка: 337-536

Число гэпов: 13


Задание 3. BLAST двух последовательностей

Plot of gi|135583|sp|P25052.1|TENA_BACSU vs gi|74582833|sp|O94266.1|THI22_SCHPO

Рис.1. Карта локального сходства для выравнивания двух последовательностей с accession: P25052 и O94266. E-value = 10.

Рис.2. Карта локального сходства для выравнивания двух последовательностей с accession: P25052 и O94266. E-value = 0.01.

P.S Как видно из графиков, значения параметра е-value в данном случае никак не повлияло на карту локального сходства.

© Nosikova Kate, 2012