Занятие 7. BLAST

Задание 1

Таблица 1. Результаты поиска гипотетических гомологов белка XXXX_BACSU

  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка (в принципе должна соответствовать заданному белку)
Accession P54716.1 1U8X X NP 388699.1
E-value 0.0 0.0 0.0
Вес (в битах) 936 894 936
Процент идентичности 100% 96% 100%
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
4 белка совпадают по E-value, но меньше по весу, например Q97LM4.1 не найдены 109 находок имели E-value 0.0, но отличались меньшим весом, например находка № 107 ZP 04563116.1
2. Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний с E-value < 1E-10)
17 6 1177
3. "Худшая из хороших" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний 19 7 1256
Accession B4EVR6.1 10BB A XP 002880153.1
E-value 0.77 7e-07 1e-07 первое и 0.85 второе
Вес (в битах) 35.4 51.6 39.7 первое и 17.3 второе
% идентичности 25% 23% 33% первое и 42% второе
% сходства 46% 38% 51% первое и 83% второе
Длина выравнивания 81 423 73 первое и 12 второе
Координаты выравнивания (от-до, в запросе и в находке) с 5 по 85 для моего белка и с 182 по 248 для найденного с 9 по 371 для моего белка и с 8 по 403 для найденного первое:с 218 по 284 для моего белка и с 43 по 102 для найденного
второе: с 81 по 92 для моего белка и с 177 по 188 для найденного
Число гэпов 14 87 7 первое и 0 второе

Исходный белок удалось найти в Swiss-Prot и в "nr" (белок, найденный в "nr" имеет другой AC и описан только для штамма 168, но идентичен моему белку), в PDB структура моего белка не найдена.

Число явных гомологов, найденных в "nr" в десятки раз больше, чем в Swiss-Prot и в сотни больше, чем в PDB. Это связанно с тем, что "nr" содержит последовательностей гораздо больше (из всевозможных источников). PDB содержит структуры белков, а их создано намного меньше, чем расшифровано последовательностей, поэтому то, что в PDB найдется меньше всего гомологов было предсказуемо.

В Swiss-Prot был найден 31 белок, E-value последнего 9.9, таким образом в данном случае количество находок было ограничено их наличием в базе.
В PDB был найдено 26 белков, E-value последнего 5.8, как и в предыдущем случае количество находок было ограничено их наличием в базе.
А вот в "nr" первоначально количество находок было ограничено параметрами, в списке была сотня гомологов с E-value последнего 0.0, при изманении настроек обнаружилось 1279 белков с E-value последнего 9.3.

Задание 2

Гипотетический гомолог
Найдено в таксоне Clostridia
Accession Q97LM4.1
E-value 0.0
Вес (в битах) 733
% идентичности 76%
% сходства 90%
Длина выравнивания 440
Координаты выравнивания (от-до, в запросе и в находке) с 4 по 442 для моего белка и с 62 по 441 для найденного
Число гэпов 1

Задание 3


1: GLVA_BACSU
2: MALH_CLOAB
Matrix: EBLOSUM62
Gap_penalty: 11.0
Extend_penalty: 1.0

Выравнивание BLAST

 Score =  733 bits (1893),  Expect = 0.0, Method: Compositional matrix adjust.
             Identities = 334/440 (76%), Positives = 395/440 (90%), Gaps = 1/440 (0%)

Query  4    KSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGACDVFIREKAP  63
            K FS+VIAGGGSTFTPGIVLMLLD++++FPIRKLK YDNDKERQ  +AGAC++ ++EKAP
Sbjct  2    KKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIVAGACEIILKEKAP  61

Query  64   DIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQIPLKYGVVGQETCGPGGIAYGMR  123
            +IEF ATT+P+EAFTDVDFVMAHIRVGKYAMR LDE+IPLKYGVVGQETCGPGGIAYGMR
Sbjct  62   EIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEKIPLKYGVVGQETCGPGGIAYGMR  121

Query  124  SIGGVLEILDYMEKYSPDAWMLNYSNPAAIVAEATRRLRPNSKILNICDMPVGIEDRMAQ  183
            SIGGV+EILDYMEKYSP+AWMLNYSNPAAIVAEATR+LRPNSKILNICDMP+GIE RMA+
Sbjct  122  SIGGVIEILDYMEKYSPNAWMLNYSNPAAIVAEATRKLRPNSKILNICDMPIGIETRMAE  181

Query  184  ILGLSSRKEMKVRYYGLNHFGWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEAS  242
            ILGL SRKEM V+YYGLNHFGWW+ I+D++GNDLMPKLKEHV +YGY+ +  + +  +AS
Sbjct  182  ILGLESRKEMTVKYYGLNHFGWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDAS  241

Query  243  WNDTFAKARDVQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFSQCD  302
            WNDTFAKA+DV A DP TLPNTYL+YYLFPD +V+ SN  +TRANEVM+GRE F+F +C 
Sbjct  242  WNDTFAKAKDVYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFGECK  301

Query  303  MITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAIANFDPTAMVEVPC  362
             +   QS++  +++ID+HASYIVDLARAI+YNT ERMLLIV NNG+I NFD T MVE+PC
Sbjct  302  KVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSIENFDSTGMVEIPC  361

Query  363  IVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAWAEKSFQKLWQALILSKTVPNARV  422
            IVGSNGPEP+T+G IPQFQKGLMEQQVSVEKL VEAW EKS+QKLWQA+ LS+TVP+A+V
Sbjct  362  IVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAWKEKSYQKLWQAITLSRTVPSAKV  421

Query  423  ARLILEDLVEANKDFWPELD  442
            A+ IL++L+E NKD+WPEL+
Sbjct  422  AKQILDELIEVNKDYWPELN  441

Полное выравнивание (needle)

Aligned_sequences: 2
 Length: 450
 Identity:     334/450 (74.2%)
 Similarity:   395/450 (87.8%)
 Gaps:          10/450 ( 2.2%)
 Score: 1838.0


GLVA_BACSU         1 MKKKSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRI     50
                       .|.||:|||||||||||||||||||::::|||||||.||||||||..:
MALH_CLOAB         1 --MKKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIV     48

GLVA_BACSU        51 AGACDVFIREKAPDIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQ    100
                     ||||::.::||||:|||.|||:|:|||||||||||||||||||||.|||:
MALH_CLOAB        49 AGACEIILKEKAPEIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEK     98

GLVA_BACSU       101 IPLKYGVVGQETCGPGGIAYGMRSIGGVLEILDYMEKYSPDAWMLNYSNP    150
                     ||||||||||||||||||||||||||||:|||||||||||:|||||||||
MALH_CLOAB        99 IPLKYGVVGQETCGPGGIAYGMRSIGGVIEILDYMEKYSPNAWMLNYSNP    148

GLVA_BACSU       151 AAIVAEATRRLRPNSKILNICDMPVGIEDRMAQILGLSSRKEMKVRYYGL    200
                     |||||||||:||||||||||||||:|||.|||:||||.|||||.|:||||
MALH_CLOAB       149 AAIVAEATRKLRPNSKILNICDMPIGIETRMAEILGLESRKEMTVKYYGL    198

GLVA_BACSU       201 NHFGWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEASWNDTFAK    249
                     ||||||:.|:|::||||||||||||.:|||:.:. :.:..:|||||||||
MALH_CLOAB       199 NHFGWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDASWNDTFAK    248

GLVA_BACSU       250 ARDVQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFS    299
                     |:||.|.||.|||||||:||||||.:|:.||..:|||||||:|||.|:|.
MALH_CLOAB       249 AKDVYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFG    298

GLVA_BACSU       300 QCDMITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAI    349
                     :|..:...||::..:::||:||||||||||||:|||.|||||||.|||:|
MALH_CLOAB       299 ECKKVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSI    348

GLVA_BACSU       350 ANFDPTAMVEVPCIVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAW    399
                     .|||.|.|||:|||||||||||:|:|.||||||||||||||||||.||||
MALH_CLOAB       349 ENFDSTGMVEIPCIVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAW    398

GLVA_BACSU       400 AEKSFQKLWQALILSKTVPNARVARLILEDLVEANKDFWPELDQSPTRIS    449
                     .|||:||||||:.||:|||:|:||:.||::|:|.|||:||||:       
MALH_CLOAB       399 KEKSYQKLWQAITLSRTVPSAKVAKQILDELIEVNKDYWPELN-------    441

Локальное выравнивание (water)

Length: 440
 Identity:     334/440 (75.9%)
 Similarity:   395/440 (89.8%)
 Gaps:           1/440 ( 0.2%)
 Score: 1839.0

GLVA_BACSU         4 KSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGA     53
                     |.||:|||||||||||||||||||::::|||||||.||||||||..:|||
MALH_CLOAB         2 KKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIVAGA     51

GLVA_BACSU        54 CDVFIREKAPDIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQIPL    103
                     |::.::||||:|||.|||:|:|||||||||||||||||||||.|||:|||
MALH_CLOAB        52 CEIILKEKAPEIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEKIPL    101

GLVA_BACSU       104 KYGVVGQETCGPGGIAYGMRSIGGVLEILDYMEKYSPDAWMLNYSNPAAI    153
                     |||||||||||||||||||||||||:|||||||||||:||||||||||||
MALH_CLOAB       102 KYGVVGQETCGPGGIAYGMRSIGGVIEILDYMEKYSPNAWMLNYSNPAAI    151

GLVA_BACSU       154 VAEATRRLRPNSKILNICDMPVGIEDRMAQILGLSSRKEMKVRYYGLNHF    203
                     ||||||:||||||||||||||:|||.|||:||||.|||||.|:|||||||
MALH_CLOAB       152 VAEATRKLRPNSKILNICDMPIGIETRMAEILGLESRKEMTVKYYGLNHF    201

GLVA_BACSU       204 GWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEASWNDTFAKARD    252
                     |||:.|:|::||||||||||||.:|||:.:. :.:..:||||||||||:|
MALH_CLOAB       202 GWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDASWNDTFAKAKD    251

GLVA_BACSU       253 VQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFSQCD    302
                     |.|.||.|||||||:||||||.:|:.||..:|||||||:|||.|:|.:|.
MALH_CLOAB       252 VYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFGECK    301

GLVA_BACSU       303 MITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAIANF    352
                     .:...||::..:::||:||||||||||||:|||.|||||||.|||:|.||
MALH_CLOAB       302 KVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSIENF    351

GLVA_BACSU       353 DPTAMVEVPCIVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAWAEK    402
                     |.|.|||:|||||||||||:|:|.||||||||||||||||||.||||.||
MALH_CLOAB       352 DSTGMVEIPCIVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAWKEK    401

GLVA_BACSU       403 SFQKLWQALILSKTVPNARVARLILEDLVEANKDFWPELD    442
                     |:||||||:.||:|||:|:||:.||::|:|.|||:||||:
MALH_CLOAB       402 SYQKLWQAITLSRTVPSAKVAKQILDELIEVNKDYWPELN    441

Выравнивание BLAST полностью совпадает с локальным выравниванием, их длина меньше полного на 10 (440 против 450), а вес на 1 больше (1839 против 1838), так как концы последовательностей имеют больше отличий, чем средний участок.

Что касается различий в самих выравниваниях можно заметить, что локальное выравнивание не включает в себя сопоставление 3 и 1 аминокислотных остатков соответствующих последовательностей, которое входит в полное выравнивание.

Задание 1*

При использовании матрицы PAM 30,штрафы за Gap 7 и за повтор 2 в Swiss-Prot было найдено всего 17 находок, у худшей находки E-value 6e-05, а вес моего белка увеличился до 1007.

Задание 2*

При стандартных настройках у белка B4EVR6.1 E-value 1.2
     Score = 35.3 bits (73),  Expect = 1.2, Method: Compositional matrix adjust.
 Identities = 20/81 (25%), Positives = 37/81 (46%), Gaps = 14/81 (17%)

Query  5    SFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGACDVFIREKAPD  64
            S +I++ G G T       ++  HL E  ++K+ + +  KER  R+A   D         
Sbjct  182  SLTILLVGAGETIE-----LVARHLREHQVKKIIIANRTKERAQRLANEVDA--------  228

Query  65   IEFAATTDPEEAFTDVDFVMA  85
             E    +D +E+ +  D V++
Sbjct  229  -EVITLSDIDESLSQADIVIS  248

Я считаю, что он не является гомологом. Во-первых, выравнивание мало по длине, а во-вторых, сильно отличаются координаты выравнивания. Кроме того, количетво гэпов 17% очень уж велико, особенно при идентичности всего 25%.
Локальное выравнивание совпадает с представленым в BLAST, а Полное выравнивание содержит 77,6% гэпов при идентичности 6,2%.

Задание 3*

Интерфейс на сайте EBI довольно компактный, пошаговая идея работы удобна (Step 1,step 2...) Но на сервере NCBI мне нравится больше, возможно это дело привычки и приятная голубая гамма.
На сайте Expasy интерфейс хорош своей простотой, но как-то "размазан" по экрану и опций для настройки программы малова-то.