Задание 1
Таблица 1. Результаты поиска гипотетических гомологов белка XXXX_BACSU
| Поиск по БД Swiss-Prot | Поиск по БД PDB | Поиск по БД "nr" | |
| 1. Лучшая находка (в принципе должна соответствовать заданному белку) | |||
| Accession | P54716.1 | 1U8X X | NP 388699.1 |
| E-value | 0.0 | 0.0 | 0.0 |
| Вес (в битах) | 936 | 894 | 936 |
| Процент идентичности | 100% | 96% | 100% |
| Найдены ли другие белки с теми же значениями E-value и веса в битах? Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID) |
4 белка совпадают по E-value, но меньше по весу, например Q97LM4.1 | не найдены | 109 находок имели E-value 0.0, но отличались меньшим весом, например находка № 107 ZP 04563116.1 |
| 2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1E-10) | 17 | 6 | 1177 |
| 3. "Худшая из хороших" находка (последняя в выдаче с E-value < 1) | |||
| Номер находки в списке описаний | 19 | 7 | 1256 |
| Accession | B4EVR6.1 | 10BB A | XP 002880153.1 |
| E-value | 0.77 | 7e-07 | 1e-07 первое и 0.85 второе |
| Вес (в битах) | 35.4 | 51.6 | 39.7 первое и 17.3 второе |
| % идентичности | 25% | 23% | 33% первое и 42% второе |
| % сходства | 46% | 38% | 51% первое и 83% второе |
| Длина выравнивания | 81 | 423 | 73 первое и 12 второе |
| Координаты выравнивания (от-до, в запросе и в находке) | с 5 по 85 для моего белка и с 182 по 248 для найденного | с 9 по 371 для моего белка и с 8 по 403 для найденного | первое:с 218 по 284 для моего белка и с 43 по 102 для найденного
второе: с 81 по 92 для моего белка и с 177 по 188 для найденного |
| Число гэпов | 14 | 87 | 7 первое и 0 второе |
Исходный белок удалось найти в Swiss-Prot и в "nr" (белок, найденный в "nr" имеет другой AC и описан только для штамма 168, но идентичен моему белку), в PDB структура моего белка не найдена.
Число явных гомологов, найденных в "nr" в десятки раз больше, чем в Swiss-Prot и в сотни больше, чем в PDB. Это связанно с тем, что "nr" содержит последовательностей гораздо больше (из всевозможных источников). PDB содержит структуры белков, а их создано намного меньше, чем расшифровано последовательностей, поэтому то, что в PDB найдется меньше всего гомологов было предсказуемо.
В Swiss-Prot был найден 31 белок, E-value последнего 9.9, таким образом в данном случае
количество находок было ограничено их наличием в базе.
В PDB был найдено 26 белков, E-value последнего 5.8, как и в предыдущем случае количество
находок было ограничено их наличием в базе.
А вот в "nr" первоначально количество находок было ограничено параметрами, в списке была сотня гомологов
с E-value последнего 0.0, при изманении настроек обнаружилось 1279 белков с E-value последнего 9.3.
Задание 2
| Гипотетический гомолог | |||
| Найдено в таксоне | Clostridia | ||
| Accession | Q97LM4.1 | ||
| E-value | 0.0 | ||
| Вес (в битах) | 733 | ||
| % идентичности | 76% | ||
| % сходства | 90% | ||
| Длина выравнивания | 440 | ||
| Координаты выравнивания (от-до, в запросе и в находке) | с 4 по 442 для моего белка и с 62 по 441 для найденного | ||
| Число гэпов | 1 | ||
Задание 3
1: GLVA_BACSU
2: MALH_CLOAB
Matrix: EBLOSUM62
Gap_penalty: 11.0
Extend_penalty: 1.0
Выравнивание BLAST
Score = 733 bits (1893), Expect = 0.0, Method: Compositional matrix adjust.
Identities = 334/440 (76%), Positives = 395/440 (90%), Gaps = 1/440 (0%)
Query 4 KSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGACDVFIREKAP 63
K FS+VIAGGGSTFTPGIVLMLLD++++FPIRKLK YDNDKERQ +AGAC++ ++EKAP
Sbjct 2 KKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIVAGACEIILKEKAP 61
Query 64 DIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQIPLKYGVVGQETCGPGGIAYGMR 123
+IEF ATT+P+EAFTDVDFVMAHIRVGKYAMR LDE+IPLKYGVVGQETCGPGGIAYGMR
Sbjct 62 EIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEKIPLKYGVVGQETCGPGGIAYGMR 121
Query 124 SIGGVLEILDYMEKYSPDAWMLNYSNPAAIVAEATRRLRPNSKILNICDMPVGIEDRMAQ 183
SIGGV+EILDYMEKYSP+AWMLNYSNPAAIVAEATR+LRPNSKILNICDMP+GIE RMA+
Sbjct 122 SIGGVIEILDYMEKYSPNAWMLNYSNPAAIVAEATRKLRPNSKILNICDMPIGIETRMAE 181
Query 184 ILGLSSRKEMKVRYYGLNHFGWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEAS 242
ILGL SRKEM V+YYGLNHFGWW+ I+D++GNDLMPKLKEHV +YGY+ + + + +AS
Sbjct 182 ILGLESRKEMTVKYYGLNHFGWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDAS 241
Query 243 WNDTFAKARDVQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFSQCD 302
WNDTFAKA+DV A DP TLPNTYL+YYLFPD +V+ SN +TRANEVM+GRE F+F +C
Sbjct 242 WNDTFAKAKDVYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFGECK 301
Query 303 MITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAIANFDPTAMVEVPC 362
+ QS++ +++ID+HASYIVDLARAI+YNT ERMLLIV NNG+I NFD T MVE+PC
Sbjct 302 KVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSIENFDSTGMVEIPC 361
Query 363 IVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAWAEKSFQKLWQALILSKTVPNARV 422
IVGSNGPEP+T+G IPQFQKGLMEQQVSVEKL VEAW EKS+QKLWQA+ LS+TVP+A+V
Sbjct 362 IVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAWKEKSYQKLWQAITLSRTVPSAKV 421
Query 423 ARLILEDLVEANKDFWPELD 442
A+ IL++L+E NKD+WPEL+
Sbjct 422 AKQILDELIEVNKDYWPELN 441
Полное выравнивание (needle)
Aligned_sequences: 2
Length: 450
Identity: 334/450 (74.2%)
Similarity: 395/450 (87.8%)
Gaps: 10/450 ( 2.2%)
Score: 1838.0
GLVA_BACSU 1 MKKKSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRI 50
.|.||:|||||||||||||||||||::::|||||||.||||||||..:
MALH_CLOAB 1 --MKKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIV 48
GLVA_BACSU 51 AGACDVFIREKAPDIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQ 100
||||::.::||||:|||.|||:|:|||||||||||||||||||||.|||:
MALH_CLOAB 49 AGACEIILKEKAPEIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEK 98
GLVA_BACSU 101 IPLKYGVVGQETCGPGGIAYGMRSIGGVLEILDYMEKYSPDAWMLNYSNP 150
||||||||||||||||||||||||||||:|||||||||||:|||||||||
MALH_CLOAB 99 IPLKYGVVGQETCGPGGIAYGMRSIGGVIEILDYMEKYSPNAWMLNYSNP 148
GLVA_BACSU 151 AAIVAEATRRLRPNSKILNICDMPVGIEDRMAQILGLSSRKEMKVRYYGL 200
|||||||||:||||||||||||||:|||.|||:||||.|||||.|:||||
MALH_CLOAB 149 AAIVAEATRKLRPNSKILNICDMPIGIETRMAEILGLESRKEMTVKYYGL 198
GLVA_BACSU 201 NHFGWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEASWNDTFAK 249
||||||:.|:|::||||||||||||.:|||:.:. :.:..:|||||||||
MALH_CLOAB 199 NHFGWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDASWNDTFAK 248
GLVA_BACSU 250 ARDVQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFS 299
|:||.|.||.|||||||:||||||.:|:.||..:|||||||:|||.|:|.
MALH_CLOAB 249 AKDVYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFG 298
GLVA_BACSU 300 QCDMITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAI 349
:|..:...||::..:::||:||||||||||||:|||.|||||||.|||:|
MALH_CLOAB 299 ECKKVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSI 348
GLVA_BACSU 350 ANFDPTAMVEVPCIVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAW 399
.|||.|.|||:|||||||||||:|:|.||||||||||||||||||.||||
MALH_CLOAB 349 ENFDSTGMVEIPCIVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAW 398
GLVA_BACSU 400 AEKSFQKLWQALILSKTVPNARVARLILEDLVEANKDFWPELDQSPTRIS 449
.|||:||||||:.||:|||:|:||:.||::|:|.|||:||||:
MALH_CLOAB 399 KEKSYQKLWQAITLSRTVPSAKVAKQILDELIEVNKDYWPELN------- 441
Локальное выравнивание (water)
Length: 440
Identity: 334/440 (75.9%)
Similarity: 395/440 (89.8%)
Gaps: 1/440 ( 0.2%)
Score: 1839.0
GLVA_BACSU 4 KSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGA 53
|.||:|||||||||||||||||||::::|||||||.||||||||..:|||
MALH_CLOAB 2 KKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIVAGA 51
GLVA_BACSU 54 CDVFIREKAPDIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQIPL 103
|::.::||||:|||.|||:|:|||||||||||||||||||||.|||:|||
MALH_CLOAB 52 CEIILKEKAPEIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEKIPL 101
GLVA_BACSU 104 KYGVVGQETCGPGGIAYGMRSIGGVLEILDYMEKYSPDAWMLNYSNPAAI 153
|||||||||||||||||||||||||:|||||||||||:||||||||||||
MALH_CLOAB 102 KYGVVGQETCGPGGIAYGMRSIGGVIEILDYMEKYSPNAWMLNYSNPAAI 151
GLVA_BACSU 154 VAEATRRLRPNSKILNICDMPVGIEDRMAQILGLSSRKEMKVRYYGLNHF 203
||||||:||||||||||||||:|||.|||:||||.|||||.|:|||||||
MALH_CLOAB 152 VAEATRKLRPNSKILNICDMPIGIETRMAEILGLESRKEMTVKYYGLNHF 201
GLVA_BACSU 204 GWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEASWNDTFAKARD 252
|||:.|:|::||||||||||||.:|||:.:. :.:..:||||||||||:|
MALH_CLOAB 202 GWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDASWNDTFAKAKD 251
GLVA_BACSU 253 VQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFSQCD 302
|.|.||.|||||||:||||||.:|:.||..:|||||||:|||.|:|.:|.
MALH_CLOAB 252 VYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFGECK 301
GLVA_BACSU 303 MITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAIANF 352
.:...||::..:::||:||||||||||||:|||.|||||||.|||:|.||
MALH_CLOAB 302 KVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSIENF 351
GLVA_BACSU 353 DPTAMVEVPCIVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAWAEK 402
|.|.|||:|||||||||||:|:|.||||||||||||||||||.||||.||
MALH_CLOAB 352 DSTGMVEIPCIVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAWKEK 401
GLVA_BACSU 403 SFQKLWQALILSKTVPNARVARLILEDLVEANKDFWPELD 442
|:||||||:.||:|||:|:||:.||::|:|.|||:||||:
MALH_CLOAB 402 SYQKLWQAITLSRTVPSAKVAKQILDELIEVNKDYWPELN 441
Выравнивание BLAST полностью совпадает с локальным выравниванием, их длина меньше полного на 10 (440 против 450), а вес на 1 больше (1839 против 1838), так как концы последовательностей имеют больше отличий, чем средний участок.
Что касается различий в самих выравниваниях можно заметить, что локальное выравнивание не включает в себя сопоставление 3 и 1 аминокислотных остатков соответствующих последовательностей, которое входит в полное выравнивание.
Задание 1*
При использовании матрицы PAM 30,штрафы за Gap 7 и за повтор 2 в Swiss-Prot было найдено всего 17 находок, у худшей находки E-value 6e-05, а вес моего белка увеличился до 1007.Задание 2*
При стандартных настройках у белка B4EVR6.1 E-value 1.2 Score = 35.3 bits (73), Expect = 1.2, Method: Compositional matrix adjust.
Identities = 20/81 (25%), Positives = 37/81 (46%), Gaps = 14/81 (17%)
Query 5 SFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGACDVFIREKAPD 64
S +I++ G G T ++ HL E ++K+ + + KER R+A D
Sbjct 182 SLTILLVGAGETIE-----LVARHLREHQVKKIIIANRTKERAQRLANEVDA-------- 228
Query 65 IEFAATTDPEEAFTDVDFVMA 85
E +D +E+ + D V++
Sbjct 229 -EVITLSDIDESLSQADIVIS 248
Я считаю, что он не является гомологом. Во-первых, выравнивание мало по длине, а во-вторых,
сильно отличаются координаты выравнивания. Кроме того, количетво гэпов 17% очень уж велико,
особенно при идентичности всего 25%.
Локальное выравнивание совпадает с представленым в BLAST, а
Полное выравнивание содержит 77,6% гэпов
при идентичности 6,2%.
Задание 3*
Интерфейс на сайте EBI довольно компактный, пошаговая идея работы удобна (Step 1,step 2...)
Но на сервере NCBI мне нравится больше, возможно это дело привычки и приятная голубая гамма.
На сайте Expasy интерфейс хорош своей простотой, но как-то "размазан" по экрану и опций для настройки
программы малова-то.