Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART.

На главную страницу второго семестра

Фрагмент эталонного выравнивания.

Выравнивание.
                                                                                                                                                 
                                  *       1 0         *       2 0         *       3 0         *       4 0         *       5 0                    
A S S Y _ M Y C T U   :   I L A Y S G G L D T S V A I S W I G K E T G - R E V V A V A I D L G Q G G - E H M D V I R Q R A L D C G A V   :     5 2
A S S Y _ S Y N Y 3   :   V L A Y S G G V D T S V C I P Y L M H E W G V E E V I T L A A D L G Q G - - D E L G P I Q E K A L R C G A V   :     5 2
A S S Y _ E C O L I   :   G I A F S G G L D T S A A L L W M R Q K G - - A V P Y A Y T A N L G Q P D E E D Y D A I P R R A M E Y G A E   :     5 2
A S S Y _ A R C F U   :   V L S Y S G G L D T T V C I P L L K E K Y G F D E V I T V T V D I G Q P E - A D I K Q A E E R G K K Y A D -   :     5 2
A S S Y _ B O V I N   :   V L A Y S G G L D T S C I L V W L K E Q G - - Y D V I A Y L A N I G Q K - - E D F E E A R K K A L K L G A K   :     5 0
                            l a y S G G l D T s                             v               G Q                         a       g a              
                                                 
                          *       6 0            
A S S Y _ M Y C T U   :   E A V V V D   :     5 8
A S S Y _ S Y N Y 3   :   E S L V I D   :     5 8
A S S Y _ E C O L I   :   N A R L I D   :     5 8
A S S Y _ A R C F U   :   K H Y T I D   :     5 8
A S S Y _ B O V I N   :   K V F I E D   :     5 6
                                    D            

Mножественное выравнивание последовательностей из full_seq.fasta , построенное программой ClustalW.

Выравнивание.
                                                                                                                                                 
                                    *                 2 0                   *                 4 0                   *                            
P 6 3 6 4 2   :   - - - - - - - - M S E R V I L A Y S G G L D T S V A I S W I G K E T G R E V V A V A I D L G Q G G E H M D V I R Q R   :     5 0
P 7 7 9 7 3   :   - - - - - - M G R A K K V V L A Y S G G V D T S V C I P Y L M H E W G V E E V I T L A A D L G Q G D E L G P I Q E K   :     5 2
P 0 A 6 E 4   :   T T I L K H L P V G Q R I G I A F S G G L D T S A A L L W M R Q K G A V P Y A Y T A N L G Q P D E E D Y D A I P R R   :     5 8
O 2 8 0 3 2   :   - - - - - - - - - - M K V V L S Y S G G L D T T V C I P L L K E K Y G F D E V I T V T V D I G Q P E A D I K Q A E E   :     4 8
P 1 4 5 6 8   :   - - - - - - M S G K G S V V L A Y S G G L D T S C I L V W L K E Q G - - Y D V I A Y L A N I G Q K E D F E E A R K K   :     5 0
                                          6   6 a 5 S G G 6 D T 3     6     6                 v                     e                            
                                                                                                                                                 
                  6 0                   *                 8 0                   *               1 0 0                   *                        
P 6 3 6 4 2   :   A L D C G A V E A V V V D A R D E F A E G Y C L P T V L N N A L Y M D R - - - Y P L V S A I S R P L I V K H L V A A   :   1 0 5
P 7 7 9 7 3   :   A L R C G A V E S L V I D G K E E F V K E Y A F R S I Q A N A L Y E N R - - - Y P L S T A L A R P L I A K M L V E A   :   1 0 7
P 0 A 6 E 4   :   A M E Y G A E N A R L I D C R K Q L V A E G I A A I Q C G A F H N T T G G L T Y F N T T P L G R A V T G T M L V A A   :   1 1 6
O 2 8 0 3 2   :   R G K K Y A D K H Y T I D A K K E F V D S - L F M L I K A N G N Y E G - - - - Y V L G T A L A R P L I A E K V V E V   :   1 0 1
P 1 4 5 6 8   :   A L K L G A K K V F I E D I S K E F V E E F I W P A I Q S S A L Y E D R - - - Y L L G T S L A R P C I A R K Q V E I   :   1 0 5
                  a       g A             D       2 f v                           y             Y   l   3   6   R p   i         V                
                                                                                                                                                 
                    1 2 0                   *               1 4 0                   *               1 6 0                   *                    
P 6 3 6 4 2   :   A R E H G G G I V A H G C T G K G N D Q V R F E V G F A S L A P D L E V L A P V R D Y A W T - - - - - R E K A I A F   :   1 5 8
P 7 7 9 7 3   :   A E K Y G A D A V A H G C T G K G N D Q V R F D I S I M A L N P N L K V L A P A R E W K M S - - - - - R E E T I A Y   :   1 6 0
P 0 A 6 E 4   :   M K E D G V N I W G D G S T Y K G N D I E R F Y R Y G L L T N A E L Q I Y K P W L D T D F I D E L G G R H E M S E F   :   1 7 4
O 2 8 0 3 2   :   A K K E G A E A V A H G C T G K G N D Q L R F E N - - I F R Q H G F K V I A P V R E L N L T - - - - - R E W E I E Y   :   1 5 2
P 1 4 5 6 8   :   A Q R E G A K Y V S H G A T G K G N D Q I R F E L T C Y S L A P Q I K V I A P W R M P E F Y N R F Q G R N D L M E Y   :   1 6 3
                  a       G       v   h G   T g K G N D q   R F                         6   a P   r                     R           5            
                                                                                                                                                 
                        1 8 0                   *               2 0 0                   *               2 2 0                   *                
P 6 3 6 4 2   :   A E E N A I P I N V T K R S P F S I D Q N V W G R A V E T G F L E H L - - W N A P T K D I Y A Y T E D P T I N W G V   :   2 1 4
P 7 7 9 7 3   :   G E R Y G V E S P V K K S S P Y S I D R N I L G R S I E A G P L E D P - - M T E P T E E I Y L M T K A I A D T P D E   :   2 1 6
P 0 A 6 E 4   :   M I A C G F D Y K M S V E K A Y S T D S N M L G A T H E A K D L E Y L N S S V K I V N P I M G V K F W D E S V K I P   :   2 3 2
O 2 8 0 3 2   :   A R Q H G I E V P A T K E K P Y S I D E N L W S R S V E G G K L E D P - - S F E P P E D I Y E W T A S P E K A P D K   :   2 0 8
P 1 4 5 6 8   :   A K Q H G I P V P V T P K N P W S M D E N L M H I S Y E A G I L E N P - - K N Q A P P G L Y T K T Q D P A K A P N S   :   2 1 9
                          g                   p 5 S   D   N 6           E   g   L E                       6 y     t                              
                                                                                                                                                 
                            2 4 0                   *               2 6 0                   *               2 8 0                   *            
P 6 3 6 4 2   :   P D E V I V G F E R G V P V S V D G K - - - - - P V S M L A A I E E L N R R A G A Q G V G R L D V V E D R L V G I K   :   2 6 7
P 7 7 9 7 3   :   P E Y V D I G F E K G I P V S L N G V - - - - - M L D P V T L V E R L N E I A G N H G V G R L D M V E N R V V G I K   :   2 6 9
P 0 A 6 E 4   :   A E E V T V R F E Q G H P V A L N G K T - - - - F S D D V E M M L E A N R I G G R H G L G M S D Q I E N R I I E A K   :   2 8 6
O 2 8 0 3 2   :   P E I V K I D F E K G V P V A L N D E - - - - - R M G G F E L I K A L N E I G G K H G V G R T D M I E D R V L G L K   :   2 6 1
P 1 4 5 6 8   :   P D M L E I E F K K G V P V K V T N V G D G T T H S T A L E L F L Y L N E V A G K H G V G R I D I V E N R F I G M K   :   2 7 7
                  p     6   6   F e   G   P V   6                                     l N       G   h G 6 G r   D   6 E 1 R   6 g   K            
                                                                                                                                                 
                                3 0 0                   *               3 2 0                   *               3 4 0                            
P 6 3 6 4 2   :   S R E I Y E A P G A M V L I T A H T E L E H V T L E R E L G R F K R Q T D Q R W A E L V Y D G L W Y S P L K A A L E   :   3 2 5
P 7 7 9 7 3   :   S R E I Y E A P A L L V L I D A H R D L E S L T Q T A D V T H Y K N T V E E I Y S Q L I Y R G L W Y S P L K E A L D   :   3 2 7
P 0 A 6 E 4   :   S R G I Y E A P G M A L L H I A Y E R L L T G I H N E D T I E Q Y H A H G R Q L G R L L Y Q G R W F D S Q A L M L R   :   3 4 4
O 2 8 0 3 2   :   A R E N Y E H P A A T I L I T A H R D L E N L V L S R R E L K F K K F V E E E W A E L V Y Y G L V N D P L F D A L N   :   3 1 9
P 1 4 5 6 8   :   S R G I Y E T P A G T I L Y H A H L D I E A F T M D R E V R K I K Q G L G L K F A E L V Y T G F W H S P E C E F V R   :   3 3 5
                  s R   i Y E   P       6 L     A h     6 e                       k                   L 6 Y   G   w     p         6              
                                                                                                                                                 
                    *               3 6 0                   *               3 8 0                   *               4 0 0                        
P 6 3 6 4 2   :   A F V A K T Q E - H V S G E V R L V L H G G - - H I A V N G R R S A E S L Y D F N L A T Y D E G D S F D Q S A A R G   :   3 8 0
P 7 7 9 7 3   :   A F I V K T Q E - R V T G M V R V K F F K G - - N A N V A G R K S D Y S I Y D A E L A T Y G M E D Q F D H K A A E G   :   3 8 2
P 0 A 6 E 4   :   D S L Q R W V A S Q I T G E V T L E L R R G N D Y S I L N T V S E N L T Y K P E R L T M E K G D S V F S P D D R I G   :   4 0 2
O 2 8 0 3 2   :   A F I D K T Q E - R V T G W V K V K L Y K G - - S A V V V A R N S P Y A L Y S E E L V S F D T E S - I D Q R L A E G   :   3 7 3
P 1 4 5 6 8   :   H C I A K S Q E - R V E G K V Q V S V F K G - - Q V Y I L G R E S P L S L Y N E E L V S M N V Q G D Y E P V D A T G   :   3 9 0
                      6   4   q e     6   G   V   6         G           6     r   s         y       L                           a   G            
                                                                                                                     
                        *               4 2 0                   *               4 4 0                   *            
P 6 3 6 4 2   :   F V Y V H G L S S K L A A R R D L R - - - - - - - - - - - - - - - - - - - - - - - - - -   :   3 9 8
P 7 7 9 7 3   :   F I Y I W G L P T K V W A Q K M R G - - - - - - - - - - - - - - - - - - - - - - - - - -   :   4 0 0
P 0 A 6 E 4   :   Q L T M R N L D I T D T R E K L F G Y A K T G L L S S S A A S G V P Q V E N L E N K G Q   :   4 4 6
O 2 8 0 3 2   :   F A A F H G L Q G R L F R R L F Q - - - - - - - - - - - - - - - - - - - - - - - - - - -   :   3 9 0
P 1 4 5 6 8   :   F I N I N S L R L K E Y H R L Q N K V T A K - - - - - - - - - - - - - - - - - - - - - -   :   4 1 2
                  f           L                                                                                      

Результаты.

- число колонок во фрагменте эталонного выравнивания равно 60. - число колонок во фрагменте эталонного выравнивания, совпавших с колонками множественного выравнивания последовательностей равно 28.

Другие наблюдения и ход работы.

1.Получение эталонного выравнивания.

В базе данных SMART было получено изображение доменной структуры ASSY_ECOLI. База данных SMART выдала один домен. После выполнения команд (Щелчок по изображению выбранного домена. Открывшаяся страничка была со ссылкой на запись банка Pfam. Дальше, я перешла по гиперссылке "Pfam entry ...", в разделе "Alignment" выбрала "Seed" и "GCG MSF format", затем нажала "Retrieve alignment".), текст выравнивания был сохранен в файл benchmark.msf.

2. Вырезание из эталонного выравнивания с помощью GeneDoc фрагмент для дальнейшего детального исследования.

Я открыла файл benchmark.msf программой GeneDoc. После нажатия (или в меню: Project > Edit sequence list), появилось окошко для работы со списком последовательностей выравнивания. Были выделены и перемещены по порядку понравившиеся названия (ASSY_MYCTU, ASSY_SYNY3, ASSY_ECOLI, ASSY_ARCFU, ASSY_BOVIN), а остальные последовательности были удалены. Затем был выбран фрагмент выравнивания длиной в 60 а.о. Остальные колонки были удалены с помощью команды: Edit>Select Columns; Edit>Delete All Data. Этот фрагмент выравнивания был сохранен в файле benchmark.msf

3. По идентификаторам UniProt из benchmark.msf получение с помощью SRS полных последовательностей в формате Fasta.

На вход SRS были введены все пять ID разом, разделенные знаком | ("или"). Полученная таблица с результатом поиска, была сохранена в файл full_seq.fasta.

4. Построение программой ClustalW множественного выравнивания последовательностей из full_seq.fasta.

Чтобы выровнять последовательности, находящиеся в файле full_seq.fasta, в командной строке Putty была выполнена команда : emma full_seq.fasta. Это выравнивание было импортировано в GeneDoc и сохранено в виде файла clustalw.msf.

5. Сравнение полученных выравниваний.

Розовым цветом был отмечен в каждой последовательности из clustalw.msf участок, попавший в benchmark.msf (кнопки меню Shade>Manual shade), а зеленым цветом были выделены совподающие колонки, голубым цветом были выделены консервативные колонки. После проведения сравнения двух фрагментов выравнивания, можно сказать, что мера сходства (то есть число совпадающих колонок, деленное на общее количество колонок в benchmark.msf.) равна 0,46. Если в процентах , то это 46%. Но если при нахождении меры сходства учитывать только консервативные колонки, то она равна 0,1, если в процентах, то это 10%. Такой процент получился потому, что были выбраны последовательности одного семейства. Это достаточно большой процент!!! В случае с эталонным выравнивание посленовательности выравниваются друг под другом, то есть нет больших смещний (не поставленно много гэпов в началах или концах). А в случае с выравниванием, которое нам сделала программа emma, как раз и наблюдается это смещение.

Матрица попарной идентичности.

Была получена матрица попарного совпадения последовательностей.

Матрица попарного совпадения последовательностей эталонного выравнивания.


©Трембицкая Влада