1. При помощи программы BLASTP я собрала выборку гомологов моего белка (каталазы Bacillus pumilus) из базы Refseq. Программа работала слишком долго, поэтому пришлось ограничить поиск таксоном Viridiplantae. Вот параметры поиска. Всего нашлось 218 белков. 201 из них гомологичен моему по всей длине (query cover >80%).
201 белок можно считать гомологичным целой последовательности (query cover >70%, E-value <0.001). Этот критерий довольно условный, поэтому, по моему мнению, гомологичными моей последовательности можно считать еще 2 белка с query cover 67% и 66% (т.к. функц. соответствий в них >60%, а гэпов <1%).
Далее я сделала выборку из 3 гомологичных белков: лучшего, худшего и среднего. Для них составлена таблица:
ID | Name | Length of alignment | Bit score | Identities | Positives | E-value | Alignment |
XP_010530333.1 | PREDICTED: catalase-2 [Tarenaya hassleriana] | 481 | 513 | 53% | 68% | 5e-176 | Query 2 TNSNHKNLTTNQGVPVGDNQNSRTAGHRGPSFLDDYHLIEKLAHFDRERIPERVVHARGA 61 ++ N TTN G PV +N +S T G RGP L+DYHL+EKLA+FDRERIPERVVHARGA Sbjct 10 SSHNSPFFTTNSGAPVWNNNSSMTVGPRGPILLEDYHLVEKLANFDRERIPERVVHARGA 69 Query 62 GAYGVFEVENSMEKHTRAAFLSEEGKQTDVFVRFSTVIHPKGSPETLRDPRGFAVKFYTE 121 A G FEV + + T A FL G QT V VRFSTVIH +GSPETLRDPRGFAVKFYT Sbjct 70 SAKGFFEVTHDISHLTCADFLRAPGVQTPVIVRFSTVIHERGSPETLRDPRGFAVKFYTR 129 Query 122 EGNYDLVGNNLPIFFIRDALKFPDMVHSLKPDPVTNIQDPDRYWDFMTLTPESTHMLTWL 181 EGN+DLVGNN P+FFIRD +KFPDMVH+LKP+P ++IQ+ R DF + PES HM T+L Sbjct 130 EGNFDLVGNNFPVFFIRDGMKFPDMVHALKPNPKSHIQENWRVLDFFSHHPESLHMFTFL 189 Query 182 FSDEGIPANYAEMRGSGVHTFRWVNKYGETKYVKYHWRPSEGIRNLSMEEAAEIQANDFQ 241 F D GIP +Y M GSGV+T+ VNK G+ YVK+HW+P+ G+++L +EA + ++ Sbjct 190 FDDIGIPQDYRHMEGSGVNTYMLVNKAGKAVYVKFHWKPTCGVKSLLEDEAIRVGGSNHS 249 Query 242 HATRDLYDRIEKGNYPAWDLYVQLMPLSDYDELDYDPCDPTKTWSEEDYPLQKVGRMTLN 301 HAT+DLYD I GNYP W L++Q + +D D+ D+DP D TKTW E+ PLQ VGR+ LN Sbjct 250 HATQDLYDSIAAGNYPEWKLFIQTIDPADEDKFDFDPVDVTKTWPEDILPLQPVGRLVLN 309 Query 302 RNPENFFAETEQAAFTPSALVPGIEASEDKLLQGRLFSYPDTQRHRLGANYMRIPVNCPY 361 +N +NFFAE EQ AF P+ +VPG+ S+DKLLQ R+FSY DTQRHRLG NY+++PVN P Sbjct 310 KNIDNFFAENEQLAFCPAIVVPGVYYSDDKLLQTRIFSYSDTQRHRLGPNYLQLPVNAPK 369 Query 362 APVHNNQQDGFMTTTRPSGHINYEPNRYDDQPKENPHYKESEPVLHGDRMVRQKIEKPND 421 HNN +GFM +NY P+RYD P + PV+ R R IEK N+ Sbjct 370 CAHHNNHHEGFMNFMHRDEEVNYFPSRYD--PVRHAERYPIPPVICSGRRERCIIEKENN 427 Query 422 FKQAGEKYRSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQRLADSLG 479 FKQ GE+YRS++ + ++ I+ L + + + + I + +AD+ GQ+LA L Sbjct 428 FKQPGERYRSFTPDRQERFIRRWIEALSDPRITHEIRSIWISYWSQADQSLGQKLASRLN 487 Query 480 V 480 V Sbjct 488 V 488 |
NP_001304079.1 | catalase/peroxidase [Chlamydomonas reinhardtii] | 473 | 491 | 51% | 67% | 1e-167 | Query 10 TTNQGVPVGDNQNSRTAGHRGPSFLDDYHLIEKLAHFDRERIPERVVHARGAGAYGVFEV 69 TTN G PV +N NS T G RGP L+DYHL+EKLA+FDRERIPERVVHARGA A G FEV Sbjct 18 TTNSGAPVWNNNNSLTVGTRGPILLEDYHLVEKLANFDRERIPERVVHARGASAKGFFEV 77 Query 70 ENSMEKHTRAAFLSEEGKQTDVFVRFSTVIHPKGSPETLRDPRGFAVKFYTEEGNYDLVG 129 + + T A FL G QT V VRFSTVIH +GSPETLRDPRGFAVKFYT EGN+DLVG Sbjct 78 THDVSHLTCADFLRAPGVQTPVIVRFSTVIHERGSPETLRDPRGFAVKFYTREGNFDLVG 137 Query 130 NNLPIFFIRDALKFPDMVHSLKPDPVTNIQDPDRYWDFMTLTPESTHMLTWLFSDEGIPA 189 NNLP+FF+RD +KFPDMVH+LKP+P +IQ+ R DF + PES HM ++LF D G+P Sbjct 138 NNLPVFFVRDGMKFPDMVHALKPNPKNHIQENWRILDFFSHFPESLHMFSFLFDDLGVPQ 197 Query 190 NYAEMRGSGVHTFRWVNKYGETKYVKYHWRPSEGIRNLSMEEAAEIQANDFQHATRDLYD 249 +Y M G GV+T+ +NK G+ YVK+HW+ + G++ L EEA ++ + HAT+DL+D Sbjct 198 DYRHMDGFGVNTYTLINKAGKAVYVKFHWKTTSGVKCLLEEEAIKVGGANHSHATQDLHD 257 Query 250 RIEKGNYPAWDLYVQLMPLSDYDELDYDPCDPTKTWSEEDYPLQKVGRMTLNRNPENFFA 309 I GNYP W L++Q + D+ D+DP D TKTW E+ PLQ VGR+ LN+N +NFFA Sbjct 258 SIAAGNYPEWKLFIQTIDPEHEDKFDFDPLDVTKTWPEDIIPLQPVGRLVLNKNIDNFFA 317 Query 310 ETEQAAFTPSALVPGIEASEDKLLQGRLFSYPDTQRHRLGANYMRIPVNCPYAPVHNNQQ 369 E EQ AF P+ +VPG+ S+DK+LQ R+FSY D+QRHRLG NY+ +P N P + HNN Sbjct 318 ENEQLAFCPAIIVPGVYYSDDKMLQTRIFSYADSQRHRLGPNYLLLPANAPKSAHHNNHH 377 Query 370 DGFMTTTRPSGHINYEPNRYDDQPKENPHYKESEPVLHGDRMVRQKIEKPNDFKQAGEKY 429 +GFM +NY P+RYD P + P + R + IEK N+FKQAGE++ Sbjct 378 EGFMNFIHRDEEVNYFPSRYD--PVRHAEKFPIPPAVFSGRREKIAIEKENNFKQAGERF 435 Query 430 RSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQRLADSLGV 480 RS++ + + I+ L V + + + I + +AD GQ++A L + Sbjct 436 RSWAPDRQDRFIRRWVDALSDPRVTHEIRSVWISYWSQADRSLGQKIASHLNM 488 |
XP_008348923.1 | PREDICTED: catalase isozyme 3-like [Malus domestica] | 67 | 42.4 | 34% | 56% | 0.005 | Query 416 IEKPNDFKQAGEKYRSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQR 473 IEK N+FKQ GE+YRS++ + ++ + L V + + + I + +AD +GQ+ Sbjct 33 IEKENNFKQPGERYRSWAPDRQERFLHRWVDVLSEPRVTHEIRSIWISYWSQADRSFGQK 92 Query 474 LADSLGV 480 LA L V Sbjct 93 LASRLNV 99 |
3. Сделала 4 выравнивания моего белка и худшего из выборки: 2 глобальных (needle, muscle), и 2 локальных (water, blast) Muscle вырезан из множественного выравнивания (пред. задание), a blast взят с NCBI.
4. Затем я их выровнила, чтоб одинаковые столбики в каждом выравнивании совпадали. Локальные выравнивания совпадают, но water длиннее и включает в себя слабо консервативный участок, который не вошел в выравнивание blast. Что касается глобальных выравниваний, то на консервативном участке последовательности они совпадают друг с другом и с локальными выравниваниями, а на неконсервативном они выровнились по разному. На рисунке ниже представлена часть выравнивания. Можно увидеть, что консервативный блок (20-102 а.а.) выровнен одинаково всеми четырьмя программами, а неконсервативные участки выравнивания (например, 9-16) не совпадают совсем.
5. Я взяла свой белок и заведомо негомологичный ему белок YP_003064950.1 и построила их выравнивания программами needle и water. Затем я попыталась их выровнить как в предыдущем задании (2al.fasta) и обнаружила, что они не совпадают ни в одной позиции. Можно сделать вывод, что чем последовательности гомологичнее, тем более похожи будут результаты их выравниваний разными программами.