1. При помощи программы BLASTP я собрала выборку гомологов моего белка (каталазы Bacillus pumilus) из базы Refseq. Программа работала слишком долго, поэтому пришлось ограничить поиск таксоном Viridiplantae. Вот параметры поиска. Всего нашлось 218 белков. 201 из них гомологичен моему по всей длине (query cover >80%).
201 белок можно считать гомологичным целой последовательности (query cover >70%, E-value <0.001). Этот критерий довольно условный, поэтому, по моему мнению, гомологичными моей последовательности можно считать еще 2 белка с query cover 67% и 66% (т.к. функц. соответствий в них >60%, а гэпов <1%).
Далее я сделала выборку из 3 гомологичных белков: лучшего, худшего и среднего. Для них составлена таблица:
| ID | Name | Length of alignment | Bit score | Identities | Positives | E-value | Alignment |
| XP_010530333.1 | PREDICTED: catalase-2 [Tarenaya hassleriana] | 481 | 513 | 53% | 68% | 5e-176 |
Query 2 TNSNHKNLTTNQGVPVGDNQNSRTAGHRGPSFLDDYHLIEKLAHFDRERIPERVVHARGA 61
++ N TTN G PV +N +S T G RGP L+DYHL+EKLA+FDRERIPERVVHARGA
Sbjct 10 SSHNSPFFTTNSGAPVWNNNSSMTVGPRGPILLEDYHLVEKLANFDRERIPERVVHARGA 69
Query 62 GAYGVFEVENSMEKHTRAAFLSEEGKQTDVFVRFSTVIHPKGSPETLRDPRGFAVKFYTE 121
A G FEV + + T A FL G QT V VRFSTVIH +GSPETLRDPRGFAVKFYT
Sbjct 70 SAKGFFEVTHDISHLTCADFLRAPGVQTPVIVRFSTVIHERGSPETLRDPRGFAVKFYTR 129
Query 122 EGNYDLVGNNLPIFFIRDALKFPDMVHSLKPDPVTNIQDPDRYWDFMTLTPESTHMLTWL 181
EGN+DLVGNN P+FFIRD +KFPDMVH+LKP+P ++IQ+ R DF + PES HM T+L
Sbjct 130 EGNFDLVGNNFPVFFIRDGMKFPDMVHALKPNPKSHIQENWRVLDFFSHHPESLHMFTFL 189
Query 182 FSDEGIPANYAEMRGSGVHTFRWVNKYGETKYVKYHWRPSEGIRNLSMEEAAEIQANDFQ 241
F D GIP +Y M GSGV+T+ VNK G+ YVK+HW+P+ G+++L +EA + ++
Sbjct 190 FDDIGIPQDYRHMEGSGVNTYMLVNKAGKAVYVKFHWKPTCGVKSLLEDEAIRVGGSNHS 249
Query 242 HATRDLYDRIEKGNYPAWDLYVQLMPLSDYDELDYDPCDPTKTWSEEDYPLQKVGRMTLN 301
HAT+DLYD I GNYP W L++Q + +D D+ D+DP D TKTW E+ PLQ VGR+ LN
Sbjct 250 HATQDLYDSIAAGNYPEWKLFIQTIDPADEDKFDFDPVDVTKTWPEDILPLQPVGRLVLN 309
Query 302 RNPENFFAETEQAAFTPSALVPGIEASEDKLLQGRLFSYPDTQRHRLGANYMRIPVNCPY 361
+N +NFFAE EQ AF P+ +VPG+ S+DKLLQ R+FSY DTQRHRLG NY+++PVN P
Sbjct 310 KNIDNFFAENEQLAFCPAIVVPGVYYSDDKLLQTRIFSYSDTQRHRLGPNYLQLPVNAPK 369
Query 362 APVHNNQQDGFMTTTRPSGHINYEPNRYDDQPKENPHYKESEPVLHGDRMVRQKIEKPND 421
HNN +GFM +NY P+RYD P + PV+ R R IEK N+
Sbjct 370 CAHHNNHHEGFMNFMHRDEEVNYFPSRYD--PVRHAERYPIPPVICSGRRERCIIEKENN 427
Query 422 FKQAGEKYRSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQRLADSLG 479
FKQ GE+YRS++ + ++ I+ L + + + + I + +AD+ GQ+LA L
Sbjct 428 FKQPGERYRSFTPDRQERFIRRWIEALSDPRITHEIRSIWISYWSQADQSLGQKLASRLN 487
Query 480 V 480
V
Sbjct 488 V 488
|
| NP_001304079.1 | catalase/peroxidase [Chlamydomonas reinhardtii] | 473 | 491 | 51% | 67% | 1e-167 |
Query 10 TTNQGVPVGDNQNSRTAGHRGPSFLDDYHLIEKLAHFDRERIPERVVHARGAGAYGVFEV 69
TTN G PV +N NS T G RGP L+DYHL+EKLA+FDRERIPERVVHARGA A G FEV
Sbjct 18 TTNSGAPVWNNNNSLTVGTRGPILLEDYHLVEKLANFDRERIPERVVHARGASAKGFFEV 77
Query 70 ENSMEKHTRAAFLSEEGKQTDVFVRFSTVIHPKGSPETLRDPRGFAVKFYTEEGNYDLVG 129
+ + T A FL G QT V VRFSTVIH +GSPETLRDPRGFAVKFYT EGN+DLVG
Sbjct 78 THDVSHLTCADFLRAPGVQTPVIVRFSTVIHERGSPETLRDPRGFAVKFYTREGNFDLVG 137
Query 130 NNLPIFFIRDALKFPDMVHSLKPDPVTNIQDPDRYWDFMTLTPESTHMLTWLFSDEGIPA 189
NNLP+FF+RD +KFPDMVH+LKP+P +IQ+ R DF + PES HM ++LF D G+P
Sbjct 138 NNLPVFFVRDGMKFPDMVHALKPNPKNHIQENWRILDFFSHFPESLHMFSFLFDDLGVPQ 197
Query 190 NYAEMRGSGVHTFRWVNKYGETKYVKYHWRPSEGIRNLSMEEAAEIQANDFQHATRDLYD 249
+Y M G GV+T+ +NK G+ YVK+HW+ + G++ L EEA ++ + HAT+DL+D
Sbjct 198 DYRHMDGFGVNTYTLINKAGKAVYVKFHWKTTSGVKCLLEEEAIKVGGANHSHATQDLHD 257
Query 250 RIEKGNYPAWDLYVQLMPLSDYDELDYDPCDPTKTWSEEDYPLQKVGRMTLNRNPENFFA 309
I GNYP W L++Q + D+ D+DP D TKTW E+ PLQ VGR+ LN+N +NFFA
Sbjct 258 SIAAGNYPEWKLFIQTIDPEHEDKFDFDPLDVTKTWPEDIIPLQPVGRLVLNKNIDNFFA 317
Query 310 ETEQAAFTPSALVPGIEASEDKLLQGRLFSYPDTQRHRLGANYMRIPVNCPYAPVHNNQQ 369
E EQ AF P+ +VPG+ S+DK+LQ R+FSY D+QRHRLG NY+ +P N P + HNN
Sbjct 318 ENEQLAFCPAIIVPGVYYSDDKMLQTRIFSYADSQRHRLGPNYLLLPANAPKSAHHNNHH 377
Query 370 DGFMTTTRPSGHINYEPNRYDDQPKENPHYKESEPVLHGDRMVRQKIEKPNDFKQAGEKY 429
+GFM +NY P+RYD P + P + R + IEK N+FKQAGE++
Sbjct 378 EGFMNFIHRDEEVNYFPSRYD--PVRHAEKFPIPPAVFSGRREKIAIEKENNFKQAGERF 435
Query 430 RSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQRLADSLGV 480
RS++ + + I+ L V + + + I + +AD GQ++A L +
Sbjct 436 RSWAPDRQDRFIRRWVDALSDPRVTHEIRSVWISYWSQADRSLGQKIASHLNM 488
|
| XP_008348923.1 | PREDICTED: catalase isozyme 3-like [Malus domestica] | 67 | 42.4 | 34% | 56% | 0.005 |
Query 416 IEKPNDFKQAGEKYRSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQR 473
IEK N+FKQ GE+YRS++ + ++ + L V + + + I + +AD +GQ+
Sbjct 33 IEKENNFKQPGERYRSWAPDRQERFLHRWVDVLSEPRVTHEIRSIWISYWSQADRSFGQK 92
Query 474 LADSLGV 480
LA L V
Sbjct 93 LASRLNV 99
|
3. Сделала 4 выравнивания моего белка и худшего из выборки: 2 глобальных (needle, muscle), и 2 локальных (water, blast) Muscle вырезан из множественного выравнивания (пред. задание), a blast взят с NCBI.
4. Затем я их выровнила, чтоб одинаковые столбики в каждом выравнивании совпадали. Локальные выравнивания совпадают, но water длиннее и включает в себя слабо консервативный участок, который не вошел в выравнивание blast. Что касается глобальных выравниваний, то на консервативном участке последовательности они совпадают друг с другом и с локальными выравниваниями, а на неконсервативном они выровнились по разному. На рисунке ниже представлена часть выравнивания. Можно увидеть, что консервативный блок (20-102 а.а.) выровнен одинаково всеми четырьмя программами, а неконсервативные участки выравнивания (например, 9-16) не совпадают совсем.

5. Я взяла свой белок и заведомо негомологичный ему белок YP_003064950.1 и построила их выравнивания программами needle и water. Затем я попыталась их выровнить как в предыдущем задании (2al.fasta) и обнаружила, что они не совпадают ни в одной позиции. Можно сделать вывод, что чем последовательности гомологичнее, тем более похожи будут результаты их выравниваний разными программами.