На главную

Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART


(*) Примечание: Если вдруг страница не хочет загружаться полностью, а вместо импортированных выравниваний выскакивают неприличные HTML-тэги, пожалуйста, обновите страницу, возможно, тогда они исчезнут.


База данных SMART является хранилищем множественных выравнивания гомологичных белковых доменов, которые предварительно проверены экспертами и чья достоверность посему стремится к ста процентам. Эти выравнивания согласованы с данными о пространственной структуре, если таковые имеются. Подобные выравнивания берут в качестве эталонов (benchmark alignment) при тестировании новых программ построения выравнивниваний. Цель нынешнего задания - оценить качество работы программы ClustalW с помощью сравнения полученнего выравнивания с эталонным, "смартовским".

В базе данных SMART получено изображение доменной структуры белка CAPP_ECOLI. У белка оказался лишь один домен, выбрав его, получено эталонное выравнивание доменов, сохранённое в текстовом файле PF00311.msf. Но по каким-то неизвестным мне причинам, в выравнивании оказалось куда меньше последовательностей, чем требуемый минимум в пять штук, а именно, всего навсего две последовательности.

Предположу лишь то, что либо мой белок с данным доменом находится на начальной стадии изучения, поэтому эталонные выравнивания в стадии доработки, либо то, что существует лишь два белка, для которых сделано эталонное выравнивания по данному домену. В любом случае, при наличии двух последовательностей сравнивать множественные выравнивания оказывается невозможным, ибо вся работа сведётся к сравниванию выравниваний, которым мы занимались во втором блоке. Способ как-то решить эту проблему видится мне лишь в том, чтобы взять другой белок с другим доменом и выполнить задание на его примере. Качество работы, мне кажется, в таком случае не изменится.

Принцип, по которому я выбрала новый белок, абсолютно случаен, критерием выбора служило лишь наличие более пяти последовательностей в эталонных выравниваниях. Таким образом c помощью UniProt был выбран белок Q2YUW6_STAAB, здесь можно ознакомиться с сведениями об этом белке из банка UniProt.

Далее, следуя заданию, былo проделано всё, что и ранее для белка CAPP_ECOLI. В файле Q2YUW6_STAAB.msf сохранено эталонное множественное выравнивание для домена Epimerase_2, начинающегося с 32-ого а.о и заканчивающегося 372-ым, с E-value = 3.80e-192.

Всего в выравнивании 21 последовательность. Согласно требованиях задания, необходимо оставить всего пять. Я оставила выравнивания последовательностей для белков: P72382_STAAU, MNAA_BACSU, O07871_STRPN, O68214_NEIMA и EPSC2_RALSO. (C помощью SRS найдены последовательности этих белков и сохранены в файте full_seq.fasta.) Затем я вырезала непрерывный фрагмент (сохранён в файле benchmark.msf) со 163-его а.о. эталонного выравнивания по 243-ий а.о., то есть фрагмент из 80-ти а.о. (На самом деле он короче (79 а.о.), ибо во фрагмент входят вырезанные из общего эталонного выравнивания, пустые колонки гэпов, а точнее входили до того, как я их не удалила в GenDoc):

                                                                                                                                       
                                            *                 2 0                   *                 4 0                   *          
P 7 2 3 8 2 _ S T A   :   I D A L S - - - - - - - - - T T V Q N D F V S T I I N K H K G K K V I L L T A H R R E N I G E P M H   :   4 1
M N A A _ B A C S U   :   I D A L N - - - - - - - - - T T V R D G Y S H P V L D Q V G E D K M I L L T A H R R E N L G E P M E   :   4 1
O 0 7 8 7 1 _ S T R   :   I D A L K - - - - - - - - - T T V Q K D Y T H P D L D L N A D N R L I L L T A H R R E N L G E P M K   :   4 1
O 6 8 2 1 4 _ N E I   :   I D A L M V S L E K L K I - T T I K K Q M E Q A F P F I Q D N S K V I L I T A H R R E N H G E G I K   :   4 9
E P S C 2 _ R A L S   :   I D A L L S V R Q R L Q T D T A L C R N T A S L I P Y N I G E R R I V L V T G H R R E S F G D G F E   :   5 0
                          I D A L                     T t 6                               4 6 6 L 6 T a H R R E n   G e                
                                                                                             
                                          6 0                   *                            
P 7 2 3 8 2 _ S T A   :   Q I F K A V R D L A D E Y K D V V F I Y P M H R N P K V R   :   7 0
M N A A _ B A C S U   :   N M F K A I R R I V G E F E D V Q V V Y P V H L N P V V R   :   7 0
O 0 7 8 7 1 _ S T R   :   H M F R A V K R I L N E Y D D V K V I Y P I H K N P L V R   :   7 0
O 6 8 2 1 4 _ N E I   :   N I G L S I L E L A K K Y P T F S F V I P L H L N P N V R   :   7 8
E P S C 2 _ R A L S   :   R I C S T L T S I A R A H P D V D I V Y P V H L N P N V R   :   7 9
                            6       6     6           d v     6 y P 6 H   N P   V R          

После того, как фрагмент эталонного выравнивания получен, необходимо построить собственное выравнивание этих же последовательностей белков с помощью программы ClustalW пакета EMBOSS:


                                                                                                                                         
                                            *                 2 0                   *                 4 0                   *            
P 7 2 3 8 2 _ S T A   :   M C L N F R E D N V M K K I M V I F G T R P E A I K M A P L V K E I D H N G N F E A N I V I T A Q H   :     5 0
M N A A _ B A C S U   :   - - - - - - - - M K K L K V M T V F G T R P E A I K M A P L V L E L K K Y P E I D S Y V T V T A Q H   :     4 2
O 0 7 8 7 1 _ S T R   :   - - - - - - - - - - - M K I M L V F G T R P E A I K M C P L V N E L K K Q A D M E T V V C V T G Q H   :     3 9
O 6 8 2 1 4 _ N E I   :   - - - - - - - - - - - M K V L T V F G T R P E A I K M A P V I L E L Q K H N T I T S K V C I T A Q H   :     3 9
E P S C 2 _ R A L S   :   - - - - - - - - - - M K K V L V V F G T R P E A I K M A P L V K A L Q A D A S L Q C G V C V T A Q H   :     4 0
                                                  K 6 6   6 F G T R P E A I K M a P 6 6   e 6                   6   6 T a Q H            
                                                                                                                                         
                                          6 0                   *                 8 0                   *               1 0 0            
P 7 2 3 8 2 _ S T A   :   R D M L D S V L S I F D I Q A D H D L N I M Q D Q Q T L A G L T A N A L A K L D S I I N E E Q P D M   :   1 0 0
M N A A _ B A C S U   :   R Q M L D Q V L D A F H I K P D F D L N I M K E R Q T L A E I T S N A L V R L D E L F K D I K P D I   :     9 2
O 0 7 8 7 1 _ S T R   :   K E M V S P V L E L F G V Q P D Y D L E I M K A N Q T L F S I T T S I L E K I K P V L E E E Q P D I   :     8 9
O 6 8 2 1 4 _ N E I   :   R E M L D Q V L S L F E I K A D Y D L N I M K P N Q S L Q E I T T N I I S S L T D V L E D F K P D C   :     8 9
E P S C 2 _ R A L S   :   R E M L D Q V L R L F D I R P D Y D L N V M K P G Q D L Y E L T S N I L T G V K S V L E S F E P D L   :     9 0
                          4   M 6 d   V L     F   6     D   D L n 6 M k     Q   L     6 T   n   6     6     6           P D              
                                                                                                                                         
                                            *               1 2 0                   *               1 4 0                   *            
P 7 2 3 8 2 _ S T A   :   I L V H G D T T T T F V G S L A A F Y H Q I P V G H V E A G L R T H Q K Y S P F P E E L N R V M V S   :   1 5 0
M N A A _ B A C S U   :   V L V H G D T T T T F A G S L A A F Y H Q I A V G H V E A G L R T G N K Y S P F P E E L N R Q M T G   :   1 4 2
O 0 7 8 7 1 _ S T R   :   V L V H G D T T T T Y A A A L A A F Y L G I K V G H V E A G L R T Y N L Q S P F P E E F N R Q S T S   :   1 3 9
O 6 8 2 1 4 _ N E I   :   V L A H G D T T T T F A A S L A A F Y Q K I P V G H I E A G L R T Y N L Y S P W P E E A N R R L T S   :   1 3 9
E P S C 2 _ R A L S   :   V L V H G D T S T T L A T T L A A Y Y K Q V P V G H I E A G L R T G N L Y S P W P E E V N R K V T G   :   1 4 0
                          6 L v H G D T 3 T T   a     L A A 5 Y     6   V G H 6 E A G L R T   n   y S P 5 P E E   N R     t              
                                                                                                                                         
                                        1 6 0                   *               1 8 0                   *               2 0 0            
P 7 2 3 8 2 _ S T A   :   N I A E L N F A P T V I A A K N L L F E N K D K E S I F I T G N T V I D A L S T T V Q N D F V S T I   :   2 0 0
M N A A _ B A C S U   :   A I A D L H F A P T G Q A K D N L L K E N K K A D S I F V T G N T A I D A L N T T V R D G Y S H P V   :   1 9 2
O 0 7 8 7 1 _ S T R   :   I I A N Y H F A P T E L A K E N L T K E G R - - N N V Y V T G N T V I D A L K T T V Q K D Y T H P D   :   1 8 7
O 6 8 2 1 4 _ N E I   :   V L S Q W H F A P T E D S K N N L L S E S I P S D K V I V T G N T V I D A L M V S L E K L K - I T T   :   1 8 8
E P S C 2 _ R A L S   :   S L A A L H F A P T E R S R R N L L N E G V P A D A V V V T G N T V I D A L L S V R Q R L Q T D T A   :   1 9 0
                            6 a     h F A P T           N L l   E             6   6 T G N T v I D A L                                    
                                                                                                                                         
                                            *               2 2 0                   *               2 4 0                   *            
P 7 2 3 8 2 _ S T A   :   I N K H K G - - - - - - - - - K K V I L L T A H R R E N I G E P M H Q I F K A V R D L A D E Y K D V   :   2 4 1
M N A A _ B A C S U   :   L D Q V G E - - - - - - - - - D K M I L L T A H R R E N L G E P M E N M F K A I R R I V G E F E D V   :   2 3 3
O 0 7 8 7 1 _ S T R   :   L D L N A D - - - - - - - - - N R L I L L T A H R R E N L G E P M K H M F R A V K R I L N E Y D D V   :   2 2 8
O 6 8 2 1 4 _ N E I   :   I K K Q M E Q A F P F I Q D N S K V I L I T A H R R E N H G E G I K N I G L S I L E L A K K Y P T F   :   2 3 8
E P S C 2 _ R A L S   :   L C R N T A S L I P Y N I G E R R I V L V T G H R R E S F G D G F E R I C S T L T S I A R A H P D V   :   2 4 0
                          6                               4 6 6 L 6 T a H R R E n   G e         6       6     6           d v            
                                                                                                                                         
                                        2 6 0                   *               2 8 0                   *               3 0 0            
P 7 2 3 8 2 _ S T A   :   V F I Y P M H R N P K V R A I A E K Y L S G R N R I E L I E P L D A I E F H N F T N Q S Y L V L T D   :   2 9 1
M N A A _ B A C S U   :   Q V V Y P V H L N P V V R E A A H K H F G D S D R V H L I E P L E V I D F H N F A A K S H F I L T D   :   2 8 3
O 0 7 8 7 1 _ S T R   :   K V I Y P I H K N P L V R E T A A E I F G D I E R I Q I I E P L D V L D F H N F M N N S Y M I L T D   :   2 7 8
O 6 8 2 1 4 _ N E I   :   S F V I P L H L N P N V R K P I Q D L L S S V H N V H L I E P Q E Y L P F V Y L M S K S H I I L S D   :   2 8 8
E P S C 2 _ R A L S   :   D I V Y P V H L N P N V R E P V G R L L K G I A N I H L I E P L D Y L P F V Y L M D K A H I I L T D   :   2 9 0
                              6 y P 6 H   N P   V R                         6   6 I E P l     6   F             s     6 L 3 D            
                                                                                                                                         
                                            *               3 2 0                   *               3 4 0                   *            
P 7 2 3 8 2 _ S T A   :   S G G I Q E E A P T F G K P V L V L R N H T E R P E G V E A G T S R V I G T D Y D N I V R N V K Q L   :   3 4 1
M N A A _ B A C S U   :   S G G V Q E E A P S L G K P V L V L R D T T E R P E G V E A G T L K L A G T D E E N I Y Q L A K Q L   :   3 3 3
O 0 7 8 7 1 _ S T R   :   S G G V Q E E A P S L G K P V L V M R D T T E R P E G V A A G T L K L V G T D E E T I Y Q N F K M L   :   3 2 8
O 6 8 2 1 4 _ N E I   :   S G G I Q E E A P S L G K P V L V L R D T T E R P E A V A A G T V K L V G S E T Q N I I E S F T Q L   :   3 3 8
E P S C 2 _ R A L S   :   S G G I Q E E A P S L G K P V L V M R D T T E R P E A V E A G T V R L V G T S V D A L V D S A T A L   :   3 4 0
                          S G G 6 Q E E A P 3 l G K P V L V 6 R 1 t T E R P E   V   A G T   4 6   G 3         6             L            
                                                                                                                                         
                                        3 6 0                   *               3 8 0                   *               4 0 0            
P 7 2 3 8 2 _ S T A   :   I M D D E A Y Q R M S Q A N N P Y G D G Q A S R R I C E A I E Y Y F G L R S D K P D E F V P L R H K   :   3 9 1
M N A A _ B A C S U   :   L T D P D E Y K K M S Q A S N P Y G D G E A S R R I V E E L L F H Y G Y R K E Q P D S F T G K - - -   :   3 8 0
O 0 7 8 7 1 _ S T R   :   L D D S E E Y K K M S Q A S N P Y G N G D A S K Q I V R I L R G I - - - - - - - - - - - - - - - - -   :   3 6 1
O 6 8 2 1 4 _ N E I   :   I E Y P E Y Y E K M A N I E N P Y G I G N A S K I I V E T L L K N R - - - - - - - - - - - - - - - -   :   3 7 2
E P S C 2 _ R A L S   :   L N D D S A Y E A M S R A H N P Y G D G A A S A R I T R A I Q A Y F A - - - - - - - - - - - - - - -   :   3 7 5
                          6   d       Y     M s   a   N P Y G   G   A S     I       6                                                    

Красным выделены те участки выравнивания, кои совпали с соответствующими участками во фрагменте эталонного выравнивания. Нетрудно заметить, что полных колонок у нас достаточно много. Итак, сравним наши выравнивания. Во фрагменте всего 79 колонок. Совпавших в двух выравниваниях колонок 53. Вычесляя так называемую меру сходства, равную отношению совпавших колонок и общего их количества, получим 67.1%. Мне кажется, этот процент не из худших. Наряду с этим, видно, что выравнивание последних двух последовательностей совпало на 100%. Если учесть, что фрагмент вырезался из выравнивания 21-ой последовательности (5 штук - это всего лишь выборка), а ClustalW выравнивала всего лишь 5, можно предположить, что данная программа весьма успешна в своём назначении. Естественно, если выровнять 21-ну последовательность и 5, выравнивания получатся различные в любом случае. Задача ClustalW как можно точно приблизиться к эталонному выравниванию. По идее сделать это невозможно, если не взять все 21 последовательность и не выровнять их. При наличии пяти последовательностей ClustalW приблизилась к эталону на 67.1%, несмотря на чрезвычайно большую разницу между 21-им и 5-ю.

А теперь построим матрицу попарной идентичности для каждого из выравниваний. Заметим сразу, что первое выравнивание - это выборка из выравнивания в 21-у последовательность, поэтому логично, что проценты идентичности в парах будут ниже, чем в случае выравнивания по всей длине последовательностей в ClustalW, постороенного всего лишь из пяти последовательностей. Так оно и есть.


Матрица идентичности для фрагмента эталонного выравнивания:
P72382_STAAUMNAA_BACSUO07871_STRPNO68214_NEIMAEPSC2_RALSO
P72382_STAAU100%
MNAA_BACSU51%100%
O07871_STRPN54%61%100%
O68214_NEIMA38%35%33%100%
EPSC2_RALSO31%35%29%34%100%

Матрица идентичности для выравнивания в ClustalW:
P72382_STAAUMNAA_BACSUO07871_STRPNO68214_NEIMAEPSC2_RALSO
P72382_STAAU100%
MNAA_BACSU56%100%
O07871_STRPN49%60%100%
O68214_NEIMA43%51%50%100%
EPSC2_RALSO45%49%50%56%100%

Однако, матрицы не различаются между собой по максимумам идентичности, в обоих случаях это O07871_STRPN - MNAA_BACSU (61% и 60% соотвественно).


©Чебышева Анна, 2005