На главную страницу вторго семестра

Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART

  1. Получение "эталонного" выравнивания из банка выравниваний SMART
    Cu-oxidase_3.msf
  2. Получение фрагмента для дальнейшего детального исследования, с помощью GeneDoc
    benchmark.msf
                                                                                                                                                         
                                                *                 2 0                   *                 4 0                   *                        
    F E T 3 _ C A N G A   :   M D G V P Y L T Q C P I G P - G D T M L Y N F T V D E - N V G T Y W Y H S H T D G - - - Q Y E - D G M R G L F V I   :   5 1
    F I O 1 _ S C H P O   :   M D G V P Q S T Q C E I P P - G A T F Y Y N Y T A L Q - - N G T Y W V H S H D M S - - - Q Y P - D G L R T P F I I   :   5 0
    L A C 1 _ C R Y P A   :   Q D G V N G I T E C P I P P N G G S K T Y T F I A H Q - - Y G T S W Y H S H F S A - - - Q Y G - N G I V G A I Q I   :   5 1
    P C O A _ E C O L I   :   M D G V P G L S F M G I E P - D D T Y V Y T F K V K Q - - N G T Y W Y H S H S G L - - - Q E Q - E G V Y G A I I I   :   5 0
    C O P A 2 _ P S E S   :   M D G V P G L S F D G I A P - D G M Y V Y R F K V R Q - - H G T Y W Y H S H S G F - - - Q E Q - S G V Y G P L V I   :   5 0
                                                                                                                                                         
  3. Получение полных последовательностей в формате FASTA
    full_seq.fasta
  4. Построение множественного выравнивания последовательностей из full_seq.fasta, с помощью программы ClustalW
    clustalw.msf
                                                                                                                                                                         
                                                *                 2 0                   *                 4 0                   *                 6 0                    
    F E T 3 _ C A N G A   :   - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - M M V P L L L S T Y F I T A V   :     1 5
    F I O 1 _ S C H P O   :   - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - M N K F F S F P I L G L L L T C V R F V V A   :     2 2
    P C O A _ E C O L I   :   - - - - - - - - - - - - - - - - - - - - - - - - - M L L K T S R R T F L K G L T L S G V A G S L G V W S F N A R S S L S L P V A   :     3 9
    C O P A 2 _ P S E S   :   - - - - - - - - - - - - - - - - - - - - - - - - - M P T R T S R R T F V K G L A A S S I L S G L G L W R S P A W A L P N P G Q P   :     3 9
    L A C 1 _ C R Y P A   :   M P S F F R A L F S G L I A S Q L S W A A P S L L H P L E P R Q Q P N C N T A S N R A C W I S G S Y D I T T D Y E V K T P L T G   :     6 4
                                                                                                                                                                         
                                                                                                                                                                         
                                        *                 8 0                   *               1 0 0                   *               1 2 0                            
    F E T 3 _ C A N G A   :   Y G A T H T F H W T T G W G N R N V D G I K E R P V I T C N G E Y P W P D V R V A K G D R I E V Y L T N G F N N - T N T S L H F   :     7 8
    F I O 1 _ S C H P O   :   K E R L F E W N V T D V Y D V D P D G S G N S R W V I G V N N K W P I D P L V V D Y G D Q V I I K M T N S L A N N R T T S L H S   :     8 6
    P C O A _ E C O L I   :   A S L Q G T Q F D L T I G E T A V N I T G S E R Q A K T I N G G L P G P V L R W K E G D T I T L K V K N R L N E - - Q T S I H W   :   1 0 1
    C O P A 2 _ P S E S   :   D G L S G T E F D L T I G E T Q V N I T G N A R T A M T I N G G I P G P L L R W R E G D T V T L R V K N R L D E - - T T S I H W   :   1 0 1
    L A C 1 _ C R Y P A   :   V V R Q Y D L T L T Q A E N W L G P D G V V K E D V M L V N G N I L G P V I H A Q W G D T I S V T V T N N L K Y N - G T T I H W   :   1 2 7
                                                                                                                                                                         
                                                                                                                                                                         
                                *               1 4 0                   *               1 6 0                   *               1 8 0                   *                
    F E T 3 _ C A N G A   :   H G M F Q R G T N Q M D G V P Y L T Q C P I G P G D T M L Y N F T V D E N V G T Y W Y H S H T D G Q Y E D G M R G L F V I E D G   :   1 4 2
    F I O 1 _ S C H P O   :   H G L F Q K F T P Y M D G V P Q S T Q C E I P P G A T F Y Y N Y T A L Q N G - T Y W V H S H D M S Q Y P D G L R T P F I I N - -   :   1 4 7
    P C O A _ E C O L I   :   H G I I L P A N - - M D G V P G L S F M G I E P D D T Y V Y T F K V K Q N G - T Y W Y H S H S G L Q E Q E G V Y G A I I I D - -   :   1 6 0
    C O P A 2 _ P S E S   :   H G I I L P A N - - M D G V P G L S F D G I A P D G M Y V Y R F K V R Q H G - T Y W Y H S H S G F Q E Q S G V Y G P L V I D - -   :   1 6 0
    L A C 1 _ C R Y P A   :   H G I R Q L N T N L Q D G V N G I T E C P I P P N G G S K T Y T F I A H Q Y G T S W Y H S H F S A Q Y G N G I V G A I Q I D G -   :   1 9 0
                                                                                                                                                                         
                                                                                                                                                                         
                                        2 0 0                   *               2 2 0                   *               2 4 0                   *                        
    F E T 3 _ C A N G A   :   E N N K N F P Y E Y D E D V M L S I G E W Y D - T T V D V L T - R K F L N L N N P T G A E P I P Q N L I L N N T M N L T W E V Q   :   2 0 4
    F I O 1 _ S C H P O   :   - - A L E E P Y D Y D E E Y I I S M T D W Y Y - T P F N I L V P D E F K T W K N P T G A E P V P D T G L F N D T A N A T F A M E   :   2 0 8
    P C O A _ E C O L I   :   - A R E P E P F A Y D R E H V V M L S D W T D E N P H S L L K K L K K Q S D Y Y N F N K P T V G S F F R D V N T R G L S A T I A   :   2 2 3
    C O P A 2 _ P S E S   :   - A K E P E P F T Y E R E H V V M L T D W A D E D P A R V M K K L K K Q S D Y Y N N N K R T V G D F I N D V G E K G W S A T T A   :   2 2 3
    L A C 1 _ C R Y P A   :   P A S L P Y D I D L G P L V L S D Y Y Y K T A D E L V V Y T Q S N A P P A S D N V L F N G T N I N P A N T T Q G Q Y K T I T L T   :   2 5 4
                                                                                                                                                                         
                                                                                                                                                                         
                                2 6 0                   *               2 8 0                   *               3 0 0                   *               3 2 0            
    F E T 3 _ C A N G A   :   P D T T Y L L R I V N V G G F V S Q Y F W I E D H E M E V V E V D G V Y V E K N T T N M L Y I T V A Q R Y A V L V H T K N D T S   :   2 6 8
    F I O 1 _ S C H P O   :   P G K T Y R L R F I N I G A F N N Y D V M I E D H N M T I I E V D G E Y T E P Q E V S S I H L T V A Q R Y S V L V T A K N S T D   :   2 7 2
    P C O A _ E C O L I   :   D R K M W A E M K M N P T D L A D V S G Y T Y T Y L M N G Q A P L K N W T G L F R P G E K I R L R F I N G S A M T Y F D I R I P   :   2 8 7
    C O P A 2 _ P S E S   :   E R W M W A Q M K M N P T D L A D V S G A T Y T Y L M N G Q A P N M N W T G L F K P G E Q I R L R F I N G S S M T Y F D V R I P   :   2 8 7
    L A C 1 _ C R Y P A   :   P G K R H R L R I I N T S V E N N F Q V S I V G H S M T V I E S D F V P V D S F T T D S L F V G I G Q R Y D V T I D A S Q A T D   :   3 1 8
                                                                                                                                                                         
                                                                                                                                                                         
                                                *               3 4 0                   *               3 6 0                   *               3 8 0                    
    F E T 3 _ C A N G A   :   K N F A I M Q K F D D T M L D V I P K D L Q L N A T S Y L V Y D K S K P M P E Q N Y V D S I D D Y L D D F Y L V P M D K E E L Y   :   3 3 2
    F I O 1 _ S C H P O   :   R N Y A I T A Y M D E S L F D T I P D N Y N P N V T A W L S Y N S D A S Y D L G P D I D E I D S Y D D A E L N P L Y S W D - - V   :   3 3 4
    P C O A _ E C O L I   :   G L K M T V V A A D G Q Y V N P V T V D E F R I A V A E T Y D V I V E P Q G E A Y T I F A Q S M D R T G Y A R G T L A T R E G L   :   3 5 1
    C O P A 2 _ P S E S   :   G L K M T V V A S D G L H I K P V V V D E L R I A V A E T F D V I V E P A D G A Y T L F A Q S M D R T G F A R G T L T S R P G M   :   3 5 1
    L A C 1 _ C R Y P A   :   N Y W M N V T F G G G G F C G K S N N P Y P A A I I H Y N G A S N S H P T N K G - - V A P A D H E C L D L L N L V P V V P R S I   :   3 8 0
                                                                                                                                                                         
                                                                                                                                                                         
                                        *               4 0 0                   *               4 2 0                   *               4 4 0                            
    F E T 3 _ C A N G A   :   P E A D H V I T I D V I M D N L I N G V N Y A F F N N I T Y T T P K V P T L L T V L S A G Q D - - A L N P F I Y G T N T N T F V   :   3 9 4
    F I O 1 _ S C H P O   :   T E S N H S I N I W F D F F T L G D G A N Y A E I N D S S Y V F P K V P S I M I A N S T N V D G Y N L E P V T Y G P Y T N A Y I   :   3 9 8
    P C O A _ E C O L I   :   S A A V P P L D P R P L L T M E D M G M G G M G H D M A G M D H S Q M G G M D N S G E M M S M D G A D L P D S G T S S A P M D H   :   4 1 5
    C O P A 2 _ P S E S   :   Q A E V P P L D P R P L L S M D D M G M A G M D H G S M N H S A K P A M D G - - - - - - - - - - - - - - - - - - M D H S K M D H   :   3 9 7
    L A C 1 _ C R Y P A   :   P T S G F V A A S D N T L D V Q L S T T T R K W T I N G S T L D V D W G H P I T Q Y V I N K S T A W P S T D N V W L V E E A N Q   :   4 4 4
                                                                                                                                                                         
                                                                                                                                                                         
                                *               4 6 0                   *               4 8 0                   *               5 0 0                   *                
    F E T 3 _ C A N G A   :   L K K G E V V D L I V N N Q D T G K H P F H L H G H V F Q T I L R D R E F D D A K G E K P H S F N D S D H A A Y P S I P M K R D   :   4 5 8
    F I O 1 _ S C H P O   :   F E Y G D V V D V I I D N H D T G K H P F H L H G H T F Q V L E R G E - - - - - - - E N A G L Y S D Q E S H T Y Y D N P M R R D   :   4 5 5
    P C O A _ E C O L I   :   S S M A G M D H S R M A G M P G - - M Q S H P A S E T D N P L V D M Q - - - - - - - - - A M S V S P K L N D P G I G L R N N G R   :   4 6 8
    C O P A 2 _ P S E S   :   D S M P G M D H G T M P M Q E A P V M Q S H P D S E R N N P L V D M Q - - - - - - - - - A M S T S A K L N D P G I G L R D N G R   :   4 5 2
    L A C 1 _ C R Y P A   :   W A Y W L I E N D P T A T G N A L P H P I H L H G H D F V V L G R S P N V S P T A Q T P Y T F T S S D V S S L N G N N P I R R D   :   5 0 8
                                                                                                                                                                         
                                                                                                                                                                         
                                        5 2 0                   *               5 4 0                   *               5 6 0                   *                        
    F E T 3 _ C A N G A   :   T V Y L N P Q S N M V L R F K A D N P G V W F F H C H I E W H L L Q G L A V V M V E D P I S I Q N T A S Q H L T A N G L Q V C G   :   5 2 2
    F I O 1 _ S C H P O   :   T V E I E P G S F I V I R F I A D N P G A W V I H C H I E W H M E S G L L A T F I E A P E M I P S I S S P D F V K E Q C M L D G   :   5 1 9
    P C O A _ E C O L I   :   K V L T Y A D L K S R F E D P D G R E P G R T I E L H L T G H M E K F A W S F N G I K F S D A A P V L L K Y G E R L R I T L I N   :   5 3 2
    C O P A 2 _ P S E S   :   K V L T Y A D L R S T F E D P D G R E P S R T I E L H L T G H M E K F A W S F D G V K F S D A K P L M L K Y G E R V R I V L V N   :   5 1 6
    L A C 1 _ C R Y P A   :   V V M L P P K G W L L I A F Q T T N P G A W L M H C H I A W H V S A G L G N T F L E Q P S A F V A G L N T N D V N Q L N S Q C K   :   5 7 2
                                                                                                                                                                         
                                                                                                                                                                         
                                5 8 0                   *               6 0 0                   *               6 2 0                   *               6 4 0            
    F E T 3 _ C A N G A   :   N V K V P T Q G N A A A N D S D F F N L E G Q N V Q H K S I P T G F T K K G I I A M T F S C L A G V L G I T M I A I Y G F S E I   :   5 8 6
    F I O 1 _ S C H P O   :   - - - V P T I G N G A G N Y K N I S D L S G A P S P P G E M P A G W T S K A I G T M A A C V I S A C I G M G S I I F Y G A S I H   :   5 8 0
    P C O A _ E C O L I   :   D T M M T H P I H L H G M W S D L E D E N G N F M V R K H T I D V P P G T K R S Y R V T A D A L G R W A Y H C H L L Y H M E M G   :   5 9 6
    C O P A 2 _ P S E S   :   D T M M T H P I H L H G M W S D L E D E N G Q F M V R K H T I D M P P G S R R S Y R V T A D A L G R W A Y H C H M L Y H M E M G   :   5 8 0
    L A C 1 _ C R Y P A   :   S W N A Y Y P S K D I F K Q D D S G V - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :   5 9 1
                                                                                                                                                                         
                                                                                                                                           
                                                *               6 6 0                   *               6 8 0                              
    F E T 3 _ C A N G A   :   P E P E I K V M R N L H L N P E D V L E K T S S S S V I S A S N S S S L E D S R N Q K K K F I F F   :   6 3 5
    F I O 1 _ S C H P O   :   P V P T E E L D E N D D L Q E A A L E N A A M F L D T D K A V E K V V E G K D E I K - - - - - - -   :   6 2 2
    P C O A _ E C O L I   :   M F R E V R V E E - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :   6 0 5
    C O P A 2 _ P S E S   :   M F R E V R V E E - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :   5 8 9
    L A C 1 _ C R Y P A   :   - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -   :       -
                                                                                                                                           
  5. Сравнение полученных выравниваний
    Для сравнения полученных последоватеьностей я вырезал из выравненой в предыдущем задании интересующий нас участок:
                                                                                                                                             
                                                *                 2 0                   *                 4 0                   *            
    F E T 3 _ C A N G A   :   M D G V P Y L T Q C P I G P G D T M L Y N F T V D E N V G T Y W Y H S H T D G Q Y E D G M R G L F V I   :   5 1
    F I O 1 _ S C H P O   :   M D G V P Q S T Q C E I P P G A T F Y Y N Y T A L Q N G - T Y W V H S H D M S Q Y P D G L R T P F I I   :   5 0
    L A C 1 _ C R Y P A   :   Q D G V N G I T E C P I P P N G G S K T Y T F I A H Q Y G T S W Y H S H F S A Q Y G N G I V G A I Q I   :   5 1
    P C O A _ E C O L I   :   M D G V P G L S F M G I E P D D T Y V Y T F K V K Q N G - T Y W Y H S H S G L Q E Q E G V Y G A I I I   :   5 0
    C O P A 2 _ P S E S   :   M D G V P G L S F D G I A P D G M Y V Y R F K V R Q H G - T Y W Y H S H S G F Q E Q S G V Y G P L V I   :   5 0
                                                                                                                                             
    36/51=0.706
    Таким образом выравнивания совпадают на 70.6%, при этом в выравнивании сделанном ClustalW отсутствует часть консервативных позиций, что указывает на явные недостатки автоматических вырвниваний (по крайней мере сделанных этой программой). Такое совпадение получается только если выбрать из эталонного выравнивания достаточно близкие последовательности, в ином случае совпадение вообще может быть нулевое.
  6. Получение матрицы попарной идентичности.
    Для получения матриц брались соответствующие участки (выбранные в предыдущих заданиях) из эталонного выравнивания и сделанного ClustalW
    Матрица идентичности для эталонного выравнивания
     FET3_CANGAFIO1_SCHPOLAC1_CRYPAPCOA_ECOLICOPA2_PSESM
    FET3_CANGA100%    
    FIO1_SCHPO56%100%   
    LAC1_CRYPA44%43%100%  
    PCOA_ECOLI49%44%45%100% 
    COPA2_PSESM47%40%41%76%100%

    Матрица идентичности для выравнивания сделанного ClustalW
     FET3_CANGAFIO1_SCHPOLAC1_CRYPAPCOA_ECOLICOPA2_PSESM
    FET3_CANGA100%    
    FIO1_SCHPO56%100%   
    LAC1_CRYPA39%33%100%  
    PCOA_ECOLI49%44%35%100% 
    COPA2_PSESM45%40%33%76%100%

    Как видно в эталонном выравнивании либо такое же либо большее попарное совпадение, что также отражает несовершенство автоматического выравнивания.

©Павел, Мазин