Программа BLASTP

Поиск гипотетических гомологов белка ECOT_ECOLI в разных БД:

Таблица 1.

  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка (в принципе должна соответствовать заданному белку)
Идентификатор БД ECOT_ECOLI 1ECZ AAA16410.1
E-value 4e-92 5e-81 3e-91
Вес (в битах) 335 295 336
% идентичности 100% 100% 100%
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
Больше белков с тем же значеним E-value не найдено. Больше белков с тем же значеним E-value не найдено.

Больше белков с тем же значеним E-value не найдено.Но ближе всего подходит белок:NP_416713.1

2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value < 1E-10)

44.E-value меняется от 2e-91 ECOT_ECOL6 до 3e-11 ECOTL_SYNPV

9.E-value меняется от 2e-80 1SLX до 5e-29 1FI8

166.E-value меняется от 6е-91 NP_416713.1 до 9e-10 YP_001492593.1

2. "Худшая" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний (Descriptions) 45. 10. 175.
Идентификатор БД ECOT4_TRYBB 1FI8 YP_253379.1
E-value 7e-07 5e-29 0.89
Вес (в битах) 52.8 122 36.2
% идентичности 28% 100% 34%
% сходства 46% 100% 50%
Длина выравнивания 127 58 69
Координаты выравнивания (номера первых и последних а.о.) 34-156 105-162 28-90
% гэпов 4% 0% 8%

Да,в Swiss-Prot и в "nr" была найдена полная последовательность моего белка,да практически вся найдена в PDB!

Относительно выравниваний можно сказать следующее:идентичность выравнивания белка с самим собой по всем трём базам данных равна 100%!Отличия видны в значениях E-value,которое объясняется тем,что значение этой величины зависит от объёма БД,в которой проводился поиск.В итоге результат с самым низким E-value найден в БД "SwissProt",хотя логичнее было бы предположить,что самый низкий показатель E-value будет обнаружен в банке PDB,как в наименьшем по объёму из данных.

Количество потенциальных гомологов прямолинейно зависит от объёма БД.Таким образом,результат поиска точно отобразил "объёмную характеристику"каждой БД.Действительно,самой крупной БД является "nr",а самой маленькой PDB. Но значение E-value зависит также и от веса выравнивания.А в PDB очень часто имеем не всю последовательность ,а только некоторые фрагменты.Поэтому вес выравнивания,найденного в PDB,меньше,чем соответствующий параметр из банка Swiss-Prot. В данном случае:в банке PDB представлена последовательность длиной в 142 а.о.,а в Swiss-Prote - 162 а.о.,поэтому и вес соответствующего выравнивания,найденного в PDB меньше. .

Результат поиска "худшей находки" заставил меня удивиться!:) Дело в том,что у "худшей находки",найденной в PDB E-value равно 5e-29!И идентичность выравниваний соответственно равна 100%!И процентное содержание гепов равно 0!

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.

Идентификатор БД ECOT_SHEON ; Q8EEQ7.1
E-value 5e-29
Вес (в битах) 121
% идентичности 41%
% сходства 62%
Длина выравнивания 148
Координаты выравнивания (номера первых и последних а.о.) 6-153
% гэпов 1%

Данный белок принадлежит таксону Alteromonadales.К сожалению среди других таксонов обнаружить гомолога вообще не удалось (с соответственным значениием E-value).

Этот белок принадлежит организму Shewanella oneidensis.Его таксономия: Bacteria; Proteobacteria; Gammaproteobacteria; Alteromonadales;
Shewanellaceae; Shewanella.

Они выполняют очень схожие функции.Вероятнее всего они действительно гомологи.

Среди других тасонов не обнаружено гомологов, скорее всего потому что белок ECOT_ECOLI малоизучен. Либо "возможные гомологи" ещё не открыты.

Поиск белка по его фрагменту.

Мне был дан следующий фрагмент последовательности:

>seq2
CPDGKKTEAFVPVVGDGFLLRYN.

Бластом был выдан следующий результат:белок ECOT_PSEPG

fasta-формат:

>gi|189027957|sp|B0KU25.1|ECOT_PSEPG RecName: Full=Ecotin; Flags: Precursor MRPTPMTAILALTLAAAAPAMAASLKDVAPYPEAEKGFTRQVIHLPAQADESAYKLEILAGKTLKVDCNR QRLGGSLEERTLEGWGYNYYRLDKVSGPASTLMACPDGKKTEAFVPVVGDGFLLRYNSKLPVVVYVPKDV EVRYRVWSASQDVQKANVE

  Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки B0KU25 B0KU25.1
E-value 9e-15 2e-89
Вес (в битах) 77 327
Найдены ли другие белки с теми же значениями E-value и веса в битах?

Да,найдены ещё два белка с тем же весом и E-value.Их АС: Q88IC7.1 и A5W3S6.1

Нет.Больше белков с такими же параметрами поиск не выдал.

Итак,мы видим,что E-value,выданное в поиске по фрагменту больше,чем результат,полученный при поиске полной последовательности.

Это объяснется тем,что в формуле по вычислению E-value существует такая зависимость:чем больше вес выравнивания,тем меньше E-value.

А соответственно,вес выравнивания больше получен по поиску последовательности,так как её длина больше длины фрагмента. Поэтому поиск по
полной последовательности более эффективен, т.к. вероятность, что найдется белок с таким же весом выравнивания гораздо меньше, чем при поиске по фрагменту.

Зная последовательность белка B0KU25.1,произведём выравнивания (глобальное и локальное).

Глобальное:

Длина: 163

Локальное:

Выравнивание полученное бластом:

 
 Score =  183 bits (465),  Expect = 2e-46, Method: Compositional matrix adjust.
 Identities = 90/157 (57%), Positives = 112/157 (71%), Gaps = 2/157 (1%)

Query  3    PTPMTAILALTLAAAAPAMAASLKDVAPYPEAEKGFTRQVIHLPAQADESAYKLEILAGK  62
            P  + A  A T A AA ++   L+ +APYP+AEKG  RQVI L  Q DES  K+E+L G+
Sbjct  6    PAVLFAAFATTSAWAAESVQ-PLEKIAPYPQAEKGMKRQVIQLTPQEDESTLKVELLIGQ  64

Query  63   TLKVDCNRQRLGGSLEERTLEGWGYNYYRLDKVSGPASTLMACPDGKKTEAFVPV-VGDG  121
            TL+VDCN  RLGG LE +TLEGWGY+YY  DKVS P ST+MACPDGKK + FV   +GD 
Sbjct  65   TLEVDCNLHRLGGKLENKTLEGWGYDYYVFDKVSSPVSTMMACPDGKKEKKFVTAYLGDA  124

Query  122  FLLRYNSKLPVVVYVPKDVEVRYRVWSASQDVQKANV  158
             +LRYNSKLP+VVY P +V+V+YRVW A + +  A V
Sbjct  125  GMLRYNSKLPIVVYTPDNVDVKYRVWKAEEKIDNAVV  161

Выравнивание из BLASTP отличается от выравнивания, сделанного вручную, наличием гэпа на 117 позиции первой последовательности.
Выравнивание, сделанное BLASTP, имеет больший вес, что в принципе логично, ведь делая выравнивание вручную,можно не заметить более выгодного варианта.


Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

Все три выравнивания практически не отличаются, заисключением первых 5 позиций глобального выравнивания.

Т.к. выравнивания сделанные BLASTP-ом и программой water являются локальными, вполне закономерно, что они выкинули

невыравненный участок на одном из концов. Штрафы за гэп во всех выравниваниях одинаковые(11 - за открытие гэпа;

1- за его продление. Во всех выравниваниях только один гэп(на 117 позиции первой последовательности, например в выравнивании BLASTP).

 

 

 


©Терешкова Алеся,2009