Задание 1
Таблица 1. Результаты поиска гипотетических гомологов белка XXXX_BACSU
Поиск по БД Swiss-Prot | Поиск по БД PDB | Поиск по БД "nr" | |
1. Лучшая находка (в принципе должна соответствовать заданному белку) | |||
Accession | P54716.1 | 1U8X X | NP 388699.1 |
E-value | 0.0 | 0.0 | 0.0 |
Вес (в битах) | 936 | 894 | 936 |
Процент идентичности | 100% | 96% | 100% |
Найдены ли другие белки с теми же значениями E-value и веса в битах? Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID) |
4 белка совпадают по E-value, но меньше по весу, например Q97LM4.1 | не найдены | 109 находок имели E-value 0.0, но отличались меньшим весом, например находка № 107 ZP 04563116.1 |
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1E-10) | 17 | 6 | 1177 |
3. "Худшая из хороших" находка (последняя в выдаче с E-value < 1) | |||
Номер находки в списке описаний | 19 | 7 | 1256 |
Accession | B4EVR6.1 | 10BB A | XP 002880153.1 |
E-value | 0.77 | 7e-07 | 1e-07 первое и 0.85 второе |
Вес (в битах) | 35.4 | 51.6 | 39.7 первое и 17.3 второе |
% идентичности | 25% | 23% | 33% первое и 42% второе |
% сходства | 46% | 38% | 51% первое и 83% второе |
Длина выравнивания | 81 | 423 | 73 первое и 12 второе |
Координаты выравнивания (от-до, в запросе и в находке) | с 5 по 85 для моего белка и с 182 по 248 для найденного | с 9 по 371 для моего белка и с 8 по 403 для найденного | первое:с 218 по 284 для моего белка и с 43 по 102 для найденного
второе: с 81 по 92 для моего белка и с 177 по 188 для найденного |
Число гэпов | 14 | 87 | 7 первое и 0 второе |
Исходный белок удалось найти в Swiss-Prot и в "nr" (белок, найденный в "nr" имеет другой AC и описан только для штамма 168, но идентичен моему белку), в PDB структура моего белка не найдена.
Число явных гомологов, найденных в "nr" в десятки раз больше, чем в Swiss-Prot и в сотни больше, чем в PDB. Это связанно с тем, что "nr" содержит последовательностей гораздо больше (из всевозможных источников). PDB содержит структуры белков, а их создано намного меньше, чем расшифровано последовательностей, поэтому то, что в PDB найдется меньше всего гомологов было предсказуемо.
В Swiss-Prot был найден 31 белок, E-value последнего 9.9, таким образом в данном случае
количество находок было ограничено их наличием в базе.
В PDB был найдено 26 белков, E-value последнего 5.8, как и в предыдущем случае количество
находок было ограничено их наличием в базе.
А вот в "nr" первоначально количество находок было ограничено параметрами, в списке была сотня гомологов
с E-value последнего 0.0, при изманении настроек обнаружилось 1279 белков с E-value последнего 9.3.
Задание 2
Гипотетический гомолог | |||
Найдено в таксоне | Clostridia | ||
Accession | Q97LM4.1 | ||
E-value | 0.0 | ||
Вес (в битах) | 733 | ||
% идентичности | 76% | ||
% сходства | 90% | ||
Длина выравнивания | 440 | ||
Координаты выравнивания (от-до, в запросе и в находке) | с 4 по 442 для моего белка и с 62 по 441 для найденного | ||
Число гэпов | 1 |
Задание 3
1: GLVA_BACSU
2: MALH_CLOAB
Matrix: EBLOSUM62
Gap_penalty: 11.0
Extend_penalty: 1.0
Выравнивание BLAST
Score = 733 bits (1893), Expect = 0.0, Method: Compositional matrix adjust. Identities = 334/440 (76%), Positives = 395/440 (90%), Gaps = 1/440 (0%) Query 4 KSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGACDVFIREKAP 63 K FS+VIAGGGSTFTPGIVLMLLD++++FPIRKLK YDNDKERQ +AGAC++ ++EKAP Sbjct 2 KKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIVAGACEIILKEKAP 61 Query 64 DIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQIPLKYGVVGQETCGPGGIAYGMR 123 +IEF ATT+P+EAFTDVDFVMAHIRVGKYAMR LDE+IPLKYGVVGQETCGPGGIAYGMR Sbjct 62 EIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEKIPLKYGVVGQETCGPGGIAYGMR 121 Query 124 SIGGVLEILDYMEKYSPDAWMLNYSNPAAIVAEATRRLRPNSKILNICDMPVGIEDRMAQ 183 SIGGV+EILDYMEKYSP+AWMLNYSNPAAIVAEATR+LRPNSKILNICDMP+GIE RMA+ Sbjct 122 SIGGVIEILDYMEKYSPNAWMLNYSNPAAIVAEATRKLRPNSKILNICDMPIGIETRMAE 181 Query 184 ILGLSSRKEMKVRYYGLNHFGWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEAS 242 ILGL SRKEM V+YYGLNHFGWW+ I+D++GNDLMPKLKEHV +YGY+ + + + +AS Sbjct 182 ILGLESRKEMTVKYYGLNHFGWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDAS 241 Query 243 WNDTFAKARDVQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFSQCD 302 WNDTFAKA+DV A DP TLPNTYL+YYLFPD +V+ SN +TRANEVM+GRE F+F +C Sbjct 242 WNDTFAKAKDVYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFGECK 301 Query 303 MITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAIANFDPTAMVEVPC 362 + QS++ +++ID+HASYIVDLARAI+YNT ERMLLIV NNG+I NFD T MVE+PC Sbjct 302 KVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSIENFDSTGMVEIPC 361 Query 363 IVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAWAEKSFQKLWQALILSKTVPNARV 422 IVGSNGPEP+T+G IPQFQKGLMEQQVSVEKL VEAW EKS+QKLWQA+ LS+TVP+A+V Sbjct 362 IVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAWKEKSYQKLWQAITLSRTVPSAKV 421 Query 423 ARLILEDLVEANKDFWPELD 442 A+ IL++L+E NKD+WPEL+ Sbjct 422 AKQILDELIEVNKDYWPELN 441
Полное выравнивание (needle)
Aligned_sequences: 2 Length: 450 Identity: 334/450 (74.2%) Similarity: 395/450 (87.8%) Gaps: 10/450 ( 2.2%) Score: 1838.0 GLVA_BACSU 1 MKKKSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRI 50 .|.||:|||||||||||||||||||::::|||||||.||||||||..: MALH_CLOAB 1 --MKKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIV 48 GLVA_BACSU 51 AGACDVFIREKAPDIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQ 100 ||||::.::||||:|||.|||:|:|||||||||||||||||||||.|||: MALH_CLOAB 49 AGACEIILKEKAPEIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEK 98 GLVA_BACSU 101 IPLKYGVVGQETCGPGGIAYGMRSIGGVLEILDYMEKYSPDAWMLNYSNP 150 ||||||||||||||||||||||||||||:|||||||||||:||||||||| MALH_CLOAB 99 IPLKYGVVGQETCGPGGIAYGMRSIGGVIEILDYMEKYSPNAWMLNYSNP 148 GLVA_BACSU 151 AAIVAEATRRLRPNSKILNICDMPVGIEDRMAQILGLSSRKEMKVRYYGL 200 |||||||||:||||||||||||||:|||.|||:||||.|||||.|:|||| MALH_CLOAB 149 AAIVAEATRKLRPNSKILNICDMPIGIETRMAEILGLESRKEMTVKYYGL 198 GLVA_BACSU 201 NHFGWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEASWNDTFAK 249 ||||||:.|:|::||||||||||||.:|||:.:. :.:..:||||||||| MALH_CLOAB 199 NHFGWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDASWNDTFAK 248 GLVA_BACSU 250 ARDVQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFS 299 |:||.|.||.|||||||:||||||.:|:.||..:|||||||:|||.|:|. MALH_CLOAB 249 AKDVYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFG 298 GLVA_BACSU 300 QCDMITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAI 349 :|..:...||::..:::||:||||||||||||:|||.|||||||.|||:| MALH_CLOAB 299 ECKKVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSI 348 GLVA_BACSU 350 ANFDPTAMVEVPCIVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAW 399 .|||.|.|||:|||||||||||:|:|.||||||||||||||||||.|||| MALH_CLOAB 349 ENFDSTGMVEIPCIVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAW 398 GLVA_BACSU 400 AEKSFQKLWQALILSKTVPNARVARLILEDLVEANKDFWPELDQSPTRIS 449 .|||:||||||:.||:|||:|:||:.||::|:|.|||:||||: MALH_CLOAB 399 KEKSYQKLWQAITLSRTVPSAKVAKQILDELIEVNKDYWPELN------- 441
Локальное выравнивание (water)
Length: 440 Identity: 334/440 (75.9%) Similarity: 395/440 (89.8%) Gaps: 1/440 ( 0.2%) Score: 1839.0 GLVA_BACSU 4 KSFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGA 53 |.||:|||||||||||||||||||::::|||||||.||||||||..:||| MALH_CLOAB 2 KKFSVVIAGGGSTFTPGIVLMLLDNMDKFPIRKLKFYDNDKERQAIVAGA 51 GLVA_BACSU 54 CDVFIREKAPDIEFAATTDPEEAFTDVDFVMAHIRVGKYAMRALDEQIPL 103 |::.::||||:|||.|||:|:|||||||||||||||||||||.|||:||| MALH_CLOAB 52 CEIILKEKAPEIEFLATTNPKEAFTDVDFVMAHIRVGKYAMRELDEKIPL 101 GLVA_BACSU 104 KYGVVGQETCGPGGIAYGMRSIGGVLEILDYMEKYSPDAWMLNYSNPAAI 153 |||||||||||||||||||||||||:|||||||||||:|||||||||||| MALH_CLOAB 102 KYGVVGQETCGPGGIAYGMRSIGGVIEILDYMEKYSPNAWMLNYSNPAAI 151 GLVA_BACSU 154 VAEATRRLRPNSKILNICDMPVGIEDRMAQILGLSSRKEMKVRYYGLNHF 203 ||||||:||||||||||||||:|||.|||:||||.|||||.|:||||||| MALH_CLOAB 152 VAEATRKLRPNSKILNICDMPIGIETRMAEILGLESRKEMTVKYYGLNHF 201 GLVA_BACSU 204 GWWTSIQDQEGNDLMPKLKEHVSQYGYIPKT-EAEAVEASWNDTFAKARD 252 |||:.|:|::||||||||||||.:|||:.:. :.:..:||||||||||:| MALH_CLOAB 202 GWWSDIRDKDGNDLMPKLKEHVKKYGYVAENGDTQHTDASWNDTFAKAKD 251 GLVA_BACSU 253 VQAADPDTLPNTYLQYYLFPDDMVKKSNPNHTRANEVMEGREAFIFSQCD 302 |.|.||.|||||||:||||||.:|:.||..:|||||||:|||.|:|.:|. MALH_CLOAB 252 VYAVDPSTLPNTYLKYYLFPDYVVEHSNKEYTRANEVMDGREKFVFGECK 301 GLVA_BACSU 303 MITREQSSENSEIKIDDHASYIVDLARAIAYNTGERMLLIVENNGAIANF 352 .:...||::..:::||:||||||||||||:|||.|||||||.|||:|.|| MALH_CLOAB 302 KVIENQSTKGCKMEIDEHASYIVDLARAISYNTHERMLLIVPNNGSIENF 351 GLVA_BACSU 353 DPTAMVEVPCIVGSNGPEPITVGTIPQFQKGLMEQQVSVEKLTVEAWAEK 402 |.|.|||:|||||||||||:|:|.||||||||||||||||||.||||.|| MALH_CLOAB 352 DSTGMVEIPCIVGSNGPEPLTMGKIPQFQKGLMEQQVSVEKLVVEAWKEK 401 GLVA_BACSU 403 SFQKLWQALILSKTVPNARVARLILEDLVEANKDFWPELD 442 |:||||||:.||:|||:|:||:.||::|:|.|||:||||: MALH_CLOAB 402 SYQKLWQAITLSRTVPSAKVAKQILDELIEVNKDYWPELN 441
Выравнивание BLAST полностью совпадает с локальным выравниванием, их длина меньше полного на 10 (440 против 450), а вес на 1 больше (1839 против 1838), так как концы последовательностей имеют больше отличий, чем средний участок.
Что касается различий в самих выравниваниях можно заметить, что локальное выравнивание не включает в себя сопоставление 3 и 1 аминокислотных остатков соответствующих последовательностей, которое входит в полное выравнивание.
Задание 1*
При использовании матрицы PAM 30,штрафы за Gap 7 и за повтор 2 в Swiss-Prot было найдено всего 17 находок, у худшей находки E-value 6e-05, а вес моего белка увеличился до 1007.Задание 2*
При стандартных настройках у белка B4EVR6.1 E-value 1.2Score = 35.3 bits (73), Expect = 1.2, Method: Compositional matrix adjust. Identities = 20/81 (25%), Positives = 37/81 (46%), Gaps = 14/81 (17%) Query 5 SFSIVIAGGGSTFTPGIVLMLLDHLEEFPIRKLKLYDNDKERQDRIAGACDVFIREKAPD 64 S +I++ G G T ++ HL E ++K+ + + KER R+A D Sbjct 182 SLTILLVGAGETIE-----LVARHLREHQVKKIIIANRTKERAQRLANEVDA-------- 228 Query 65 IEFAATTDPEEAFTDVDFVMA 85 E +D +E+ + D V++ Sbjct 229 -EVITLSDIDESLSQADIVIS 248
Я считаю, что он не является гомологом. Во-первых, выравнивание мало по длине, а во-вторых,
сильно отличаются координаты выравнивания. Кроме того, количетво гэпов 17% очень уж велико,
особенно при идентичности всего 25%.
Локальное выравнивание совпадает с представленым в BLAST, а
Полное выравнивание содержит 77,6% гэпов
при идентичности 6,2%.
Задание 3*
Интерфейс на сайте EBI довольно компактный, пошаговая идея работы удобна (Step 1,step 2...)
Но на сервере NCBI мне нравится больше, возможно это дело привычки и приятная голубая гамма.
На сайте Expasy интерфейс хорош своей простотой, но как-то "размазан" по экрану и опций для настройки
программы малова-то.