Построение парных выравниваний
Проект Jalview

1. При помощи программы BLASTP я собрала выборку гомологов моего белка (каталазы Bacillus pumilus) из базы Refseq. Программа работала слишком долго, поэтому пришлось ограничить поиск таксоном Viridiplantae. Вот параметры поиска. Всего нашлось 218 белков. 201 из них гомологичен моему по всей длине (query cover >80%).

201 белок можно считать гомологичным целой последовательности (query cover >70%, E-value <0.001). Этот критерий довольно условный, поэтому, по моему мнению, гомологичными моей последовательности можно считать еще 2 белка с query cover 67% и 66% (т.к. функц. соответствий в них >60%, а гэпов <1%).

Далее я сделала выборку из 3 гомологичных белков: лучшего, худшего и среднего. Для них составлена таблица:

ID Name Length of alignment Bit score Identities Positives E-value Alignment
XP_010530333.1 PREDICTED: catalase-2 [Tarenaya hassleriana] 481 513 53% 68% 5e-176
Query  2    TNSNHKNLTTNQGVPVGDNQNSRTAGHRGPSFLDDYHLIEKLAHFDRERIPERVVHARGA  61
            ++ N    TTN G PV +N +S T G RGP  L+DYHL+EKLA+FDRERIPERVVHARGA
Sbjct  10   SSHNSPFFTTNSGAPVWNNNSSMTVGPRGPILLEDYHLVEKLANFDRERIPERVVHARGA  69

Query  62   GAYGVFEVENSMEKHTRAAFLSEEGKQTDVFVRFSTVIHPKGSPETLRDPRGFAVKFYTE  121
             A G FEV + +   T A FL   G QT V VRFSTVIH +GSPETLRDPRGFAVKFYT 
Sbjct  70   SAKGFFEVTHDISHLTCADFLRAPGVQTPVIVRFSTVIHERGSPETLRDPRGFAVKFYTR  129

Query  122  EGNYDLVGNNLPIFFIRDALKFPDMVHSLKPDPVTNIQDPDRYWDFMTLTPESTHMLTWL  181
            EGN+DLVGNN P+FFIRD +KFPDMVH+LKP+P ++IQ+  R  DF +  PES HM T+L
Sbjct  130  EGNFDLVGNNFPVFFIRDGMKFPDMVHALKPNPKSHIQENWRVLDFFSHHPESLHMFTFL  189

Query  182  FSDEGIPANYAEMRGSGVHTFRWVNKYGETKYVKYHWRPSEGIRNLSMEEAAEIQANDFQ  241
            F D GIP +Y  M GSGV+T+  VNK G+  YVK+HW+P+ G+++L  +EA  +  ++  
Sbjct  190  FDDIGIPQDYRHMEGSGVNTYMLVNKAGKAVYVKFHWKPTCGVKSLLEDEAIRVGGSNHS  249

Query  242  HATRDLYDRIEKGNYPAWDLYVQLMPLSDYDELDYDPCDPTKTWSEEDYPLQKVGRMTLN  301
            HAT+DLYD I  GNYP W L++Q +  +D D+ D+DP D TKTW E+  PLQ VGR+ LN
Sbjct  250  HATQDLYDSIAAGNYPEWKLFIQTIDPADEDKFDFDPVDVTKTWPEDILPLQPVGRLVLN  309

Query  302  RNPENFFAETEQAAFTPSALVPGIEASEDKLLQGRLFSYPDTQRHRLGANYMRIPVNCPY  361
            +N +NFFAE EQ AF P+ +VPG+  S+DKLLQ R+FSY DTQRHRLG NY+++PVN P 
Sbjct  310  KNIDNFFAENEQLAFCPAIVVPGVYYSDDKLLQTRIFSYSDTQRHRLGPNYLQLPVNAPK  369

Query  362  APVHNNQQDGFMTTTRPSGHINYEPNRYDDQPKENPHYKESEPVLHGDRMVRQKIEKPND  421
               HNN  +GFM        +NY P+RYD  P  +       PV+   R  R  IEK N+
Sbjct  370  CAHHNNHHEGFMNFMHRDEEVNYFPSRYD--PVRHAERYPIPPVICSGRRERCIIEKENN  427

Query  422  FKQAGEKYRSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQRLADSLG  479
            FKQ GE+YRS++ + ++  I+     L    +  + + + I  + +AD+  GQ+LA  L 
Sbjct  428  FKQPGERYRSFTPDRQERFIRRWIEALSDPRITHEIRSIWISYWSQADQSLGQKLASRLN  487

Query  480  V  480
            V
Sbjct  488  V  488
NP_001304079.1 catalase/peroxidase [Chlamydomonas reinhardtii] 473 491 51% 67% 1e-167
Query  10   TTNQGVPVGDNQNSRTAGHRGPSFLDDYHLIEKLAHFDRERIPERVVHARGAGAYGVFEV  69
            TTN G PV +N NS T G RGP  L+DYHL+EKLA+FDRERIPERVVHARGA A G FEV
Sbjct  18   TTNSGAPVWNNNNSLTVGTRGPILLEDYHLVEKLANFDRERIPERVVHARGASAKGFFEV  77

Query  70   ENSMEKHTRAAFLSEEGKQTDVFVRFSTVIHPKGSPETLRDPRGFAVKFYTEEGNYDLVG  129
             + +   T A FL   G QT V VRFSTVIH +GSPETLRDPRGFAVKFYT EGN+DLVG
Sbjct  78   THDVSHLTCADFLRAPGVQTPVIVRFSTVIHERGSPETLRDPRGFAVKFYTREGNFDLVG  137

Query  130  NNLPIFFIRDALKFPDMVHSLKPDPVTNIQDPDRYWDFMTLTPESTHMLTWLFSDEGIPA  189
            NNLP+FF+RD +KFPDMVH+LKP+P  +IQ+  R  DF +  PES HM ++LF D G+P 
Sbjct  138  NNLPVFFVRDGMKFPDMVHALKPNPKNHIQENWRILDFFSHFPESLHMFSFLFDDLGVPQ  197

Query  190  NYAEMRGSGVHTFRWVNKYGETKYVKYHWRPSEGIRNLSMEEAAEIQANDFQHATRDLYD  249
            +Y  M G GV+T+  +NK G+  YVK+HW+ + G++ L  EEA ++   +  HAT+DL+D
Sbjct  198  DYRHMDGFGVNTYTLINKAGKAVYVKFHWKTTSGVKCLLEEEAIKVGGANHSHATQDLHD  257

Query  250  RIEKGNYPAWDLYVQLMPLSDYDELDYDPCDPTKTWSEEDYPLQKVGRMTLNRNPENFFA  309
             I  GNYP W L++Q +     D+ D+DP D TKTW E+  PLQ VGR+ LN+N +NFFA
Sbjct  258  SIAAGNYPEWKLFIQTIDPEHEDKFDFDPLDVTKTWPEDIIPLQPVGRLVLNKNIDNFFA  317

Query  310  ETEQAAFTPSALVPGIEASEDKLLQGRLFSYPDTQRHRLGANYMRIPVNCPYAPVHNNQQ  369
            E EQ AF P+ +VPG+  S+DK+LQ R+FSY D+QRHRLG NY+ +P N P +  HNN  
Sbjct  318  ENEQLAFCPAIIVPGVYYSDDKMLQTRIFSYADSQRHRLGPNYLLLPANAPKSAHHNNHH  377

Query  370  DGFMTTTRPSGHINYEPNRYDDQPKENPHYKESEPVLHGDRMVRQKIEKPNDFKQAGEKY  429
            +GFM        +NY P+RYD  P  +       P +   R  +  IEK N+FKQAGE++
Sbjct  378  EGFMNFIHRDEEVNYFPSRYD--PVRHAEKFPIPPAVFSGRREKIAIEKENNFKQAGERF  435

Query  430  RSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQRLADSLGV  480
            RS++ + +   I+     L    V  + + + I  + +AD   GQ++A  L +
Sbjct  436  RSWAPDRQDRFIRRWVDALSDPRVTHEIRSVWISYWSQADRSLGQKIASHLNM  488

XP_008348923.1 PREDICTED: catalase isozyme 3-like [Malus domestica] 67 42.4 34% 56% 0.005
Query  416  IEKPNDFKQAGEKYRSYSEEEKQALIKNLTADLKG--VNEKTKLLAICNFYRADEDYGQR  473
            IEK N+FKQ GE+YRS++ + ++  +      L    V  + + + I  + +AD  +GQ+
Sbjct  33   IEKENNFKQPGERYRSWAPDRQERFLHRWVDVLSEPRVTHEIRSIWISYWSQADRSFGQK  92

Query  474  LADSLGV  480
            LA  L V
Sbjct  93   LASRLNV  99
2. Я сделала выборку из 30 гомологов и построила их выравнивание вместе с моим белком программой Muscle. Вот оно: 30seq.fasta. N- и C- концевые участки у большинства белков в выборке почти не различаются, это объясняется тем, что большинство найденных гомологов имеют очень высокий query cover.

3. Сделала 4 выравнивания моего белка и худшего из выборки: 2 глобальных (needle, muscle), и 2 локальных (water, blast) Muscle вырезан из множественного выравнивания (пред. задание), a blast взят с NCBI.

4. Затем я их выровнила, чтоб одинаковые столбики в каждом выравнивании совпадали. Локальные выравнивания совпадают, но water длиннее и включает в себя слабо консервативный участок, который не вошел в выравнивание blast. Что касается глобальных выравниваний, то на консервативном участке последовательности они совпадают друг с другом и с локальными выравниваниями, а на неконсервативном они выровнились по разному. На рисунке ниже представлена часть выравнивания. Можно увидеть, что консервативный блок (20-102 а.а.) выровнен одинаково всеми четырьмя программами, а неконсервативные участки выравнивания (например, 9-16) не совпадают совсем.

5. Я взяла свой белок и заведомо негомологичный ему белок YP_003064950.1 и построила их выравнивания программами needle и water. Затем я попыталась их выровнить как в предыдущем задании (2al.fasta) и обнаружила, что они не совпадают ни в одной позиции. Можно сделать вывод, что чем последовательности гомологичнее, тем более похожи будут результаты их выравниваний разными программами.


© Герасева Е.П. 2015