Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART


Получение эталонного выравнивания

В базе данных SMART по ID белка получено изображение доменной структуры белка GLPK_ECOLI. Выбран имеющийся домен (PFAM FGGY_N 5-252 a.o.). Далее получено эталонное выравнивание доменов, гомологичных данному. В нем встречается приличное количество совпадений, в которых присутствуют гомологичные аминокислоты. Сей блок выравнивания содержит как совпадающие с гомологичными, находящимися рядом и теми, что находятся на расстоянии аминокислотами. Интересно будет посмотреть, как программа ClustalW справится с фрагментом полного множественного выравнивания.

Описание:Толщина фрагмента – 5 последовательностей (GLPK_ECOLI, GNTK_BACLI, GLPK_BACSU, XYLB_LACPE, LYXK_HAEIN); ширина – 66 a.о. Этот кусок выравнивания отвечает плану создания из занятия 10 пункта №2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

2

0

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

4

0

 

 

 

 

 

 

 

 

 

  

G

L

P

K

_

E

C

O

L

I

 

:

 

Q

N

T

N

G

V

Y

V

V

P

A

F

T

G

L

G

A

P

Y

W

D

P

Y

A

R

G

A

I

F

G

L

T

R

G

V

N

A

N

H

I

I

R

A

T

L

 

:

 

45

G

N

T

K

_

B

A

C

L

I

 

:

 

P

G

A

D

G

L

L

F

H

P

Y

L

A

G

E

R

A

P

L

W

N

P

D

V

P

G

S

F

F

G

L

T

M

S

H

K

K

E

H

M

I

R

A

A

L

 

:

 

45

G

L

P

K

_

B

A

C

S

U

 

:

 

D

S

T

D

G

V

Y

V

V

P

A

F

V

G

L

G

T

P

Y

W

D

S

D

V

R

G

S

V

F

G

L

T

R

G

T

T

K

E

H

F

I

R

A

T

L

 

:

 

45

X

Y

L

B

_

L

A

C

P

E

 

:

 

I

G

A

N

G

L

L

F

A

P

Y

I

V

G

E

R

A

P

Y

A

D

A

T

I

R

G

S

F

I

G

V

D

G

S

H

Q

R

A

D

F

V

R

A

V

L

 

:

 

45

L

Y

X

K

_

H

A

E

I

N

 

:

 

P

A

S

S

S

V

L

F

A

P

F

L

Y

G

S

N

A

K

L

G

M

Q

A

G

-

-

-

F

Y

G

I

Q

S

H

H

T

Q

I

H

L

L

Q

A

I

Y

 

:

 

42

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

g

6

 

 

 

P

 

 

 

G

 

 

a

p

 

 

 

 

 

 

 

g

 

 

 

G

6

 

 

 

 

 

 

 

h

 

6

r

A

 

l

 

 

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

6

0

 

 

 

 

 

 

 

 

 

 

 

 

G

L

P

K

_

E

C

O

L

I

 

:

 

E

S

I

A

Y

Q

T

R

D

V

L

E

A

M

Q

A

D

S

G

I

R

 

:

 

6

6

G

N

T

K

_

B

A

C

L

I

 

:

 

E

G

V

I

Y

N

L

Y

T

V

F

L

A

L

T

E

C

M

D

G

P

 

:

 

6

6

G

L

P

K

_

B

A

C

S

U

 

:

 

E

S

L

A

Y

Q

T

K

D

V

L

D

A

M

E

A

D

S

N

I

S

 

:

 

6

6

X

Y

L

B

_

L

A

C

P

E

 

:

 

E

G

I

I

F

S

F

E

D

L

I

K

L

Y

Q

H

N

-

G

A

E

 

:

 

6

5

L

Y

X

K

_

H

A

E

I

N

 

:

 

E

G

V

I

F

S

L

M

S

H

L

E

R

M

Q

V

R

-

F

P

N

 

:

 

6

2

 

 

 

 

 

 

 

 

 

 

 

 

 

E

 

6

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Это выравнивание сделано с помощью программы ClustalW, выделен участок блока для каждого белка. Программа нашла совпадения, но немного подругому, нежели, SMART, но это совсем небольшое различие (в пятом белке (самом нижнем) со 110 по 130 а.о. прослеживается немного другое расположение гэпов, нежели в эталонном выравнивании). Можно сделать вывод о том, что программа ClustalW - самая способная из программ выравнивания, ведь по сравнению с эталоном очень мало различий.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

2

0

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

4

0

 

 

 

 

 

 

 

 

 

                 

G

L

P

K

_

E

C

O

L

I

 

:

 

-

-

-

-

-

-

-

C

V

K

E

G

M

A

K

N

T

Y

G

T

G

C

F

M

L

M

N

T

G

E

K

A

V

K

S

E

N

G

L

L

T

T

I

A

C

G

P

T

G

EV N Y A   :     4 7

G

N

T

K

_

B

A

C

L

I

 

:

 

A

I

K

K

G

E

I

A

V

T

I

G

T

S

G

A

I

R

P

I

I

D

K

P

Q

T

D

E

K

G

R

I

F

C

Y

A

L

T

E

N

H

W

V

I

G

G

P

V

N

NG G I V   :     5 4

G

L

P

K

_

B

A

C

S

U

 

:

 

-

-

-

-

-

-

-

C

F

E

E

G

M

G

K

N

T

Y

G

T

G

C

F

M

L

M

N

T

G

E

K

A

I

K

S

E

H

G

L

L

T

T

I

A

W

G

I

D

G

KV N Y A   :     4 7

X

Y

L

B

_

L

A

C

P

E

 

:

 

-

-

-

-

-

-

-

-

-

I

L

S

S

D

K

A

L

V

S

I

G

T

S

G

V

V

L

K

Y

E

D

N

A

Q

T

D

Y

R

G

V

L

Q

Y

E

R

H

A

F

P

GK Y Y S   :     4 5

L

Y

X

K

_

H

A

E

I

N

 

:

 

-

-

-

-

-

-

-

-

-

-

L

K

D

D

Q

H

L

N

V

V

L

G

T

W

S

V

V

S

G

V

T

H

Y

I

D

D

N

Q

T

I

P

F

V

Y

G

K

Y

P

E

KN K F I   :     4 4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

0

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

8

0

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

1

0

0

 

 

 

                    

G

L

P

K

_

E

C

O

L

I

 

:

 

L

E

G

A

V

F

M

A

G

A

S

I

Q

W

L

R

D

E

M

K

L

I

N

D

A

Y

D

S

E

Y

F

A

T

K

V

Q

N

T

N

G

V

Y

V

V

P

A

F

T

G

LG A P Y   :   1 0 1

G

N

T

K

_

B

A

C

L

I

 

:

 

L

R

W

I

R

D

E

F

A

S

S

E

I

E

T

A

K

R

L

G

I

D

P

Y

D

V

L

T

K

I

A

E

R

V

R

P

G

A

D

G

L

L

F

H

P

Y

L

A

G

ER A P L   :   1 0 8

G

L

P

K

_

B

A

C

S

U

 

:

 

L

E

G

S

I

F

V

A

G

S

A

I

Q

W

L

R

D

G

L

R

M

F

Q

D

S

S

L

S

E

S

Y

A

E

K

V

D

S

T

D

G

V

Y

V

V

P

A

F

V

G

LG T P Y   :   1 0 1

X

Y

L

B

_

L

A

C

P

E

 

:

 

M

G

V

T

L

A

A

G

Y

S

L

N

W

F

K

Q

T

F

A

P

D

E

D

F

G

T

V

V

A

S

A

E

Q

S

T

I

G

A

N

G

L

L

F

A

P

Y

I

V

G

ER A P Y   :     9 9

L

Y

X

K

_

H

A

E

I

N

 

:

 

I

H

E

A

S

P

T

S

A

G

N

L

E

W

F

V

N

Q

F

N

L

P

N

Y

D

D

I

N

H

E

I

A

K

L

K

P

A

S

S

S

V

L

F

A

P

F

L

Y

G

SN A K L   :     9 8

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

g

6

 

 

 

P

 

 

 

G

   a p              

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

1

2

0

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

1

4

0

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

16 0                

G

L

P

K

_

E

C

O

L

I

 

:

 

W

D

P

Y

A

R

G

A

-

I

F

G

L

T

R

G

V

N

A

N

H

I

I

R

A

T

L

E

S

I

A

Y

Q

T

R

D

V

L

E

A

M

Q

A

D

S

G

I

R

L

HA L R V   :   1 5 4

G

N

T

K

_

B

A

C

L

I

 

:

 

W

N

P

D

V

P

G

S

G

F

F

G

L

T

M

S

H

K

K

E

H

M

I

R

A

A

L

E

G

V

I

Y

N

L

Y

T

V

F

L

A

L

T

E

C

M

D

G

P

V

AR I Q A   :   1 6 1

G

L

P

K

_

B

A

C

S

U

 

:

 

W

D

S

D

V

R

G

S

-

V

F

G

L

T

R

G

T

T

K

E

H

F

I

R

A

T

L

E

S

L

A

Y

Q

T

K

D

V

L

D

A

M

E

A

D

S

N

I

S

L

KT L R V   :   1 5 4

X

Y

L

B

_

L

A

C

P

E

 

:

 

A

D

A

T

I

R

G

S

R

F

I

G

V

D

G

S

H

Q

R

A

D

F

V

R

A

V

L

E

G

I

I

F

S

F

E

D

L

I

K

L

Y

Q

H

N

G

-

A

E

F

KT I V S   :   1 5 1

L

Y

X

K

_

H

A

E

I

N

 

:

 

G

M

Q

A

G

F

Y

G

-

-

-

-

I

Q

S

H

H

T

Q

I

H

L

L

Q

A

I

Y

E

G

V

I

F

S

L

M

S

H

L

E

R

M

Q

V

R

-

F

P

N

A

ST V R V   :   1 4 7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

g

 

 

 

 

g

6

 

 

 

 

 

 

 

h

 

6

r

A

 

l

E

 

6

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   6                

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

1

8

0

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

2

0

0

 

 

 

 

 

 

 

 

 

*

 

                    

G

L

P

K

_

E

C

O

L

I

 

:

 

D

G

G

A

V

A

N

N

F

L

M

Q

F

Q

S

D

I

L

G

T

R

V

E

R

P

E

V

R

E

V

T

A

L

G

A

A

Y

L

A

G

L

A

V

G

F

W

Q

N

L

DE L Q E   :   2 0 8

G

N

T

K

_

B

A

C

L

I

 

:

 

T

G

G

F

A

R

S

D

V

W

R

Q

M

M

A

D

I

F

E

S

E

V

V

V

P

E

S

Y

E

S

S

C

L

G

A

C

I

L

G

L

Y

A

T

G

K

I

D

S

F

DV V S D   :   2 1 5

G

L

P

K

_

B

A

C

S

U

 

:

 

D

G

G

A

V

K

N

N

F

L

M

Q

F

Q

G

D

L

L

N

V

P

V

E

R

P

E

I

N

E

T

T

A

L

G

A

A

Y

L

A

G

I

A

V

G

F

W

K

D

R

SE I A N   :   2 0 8

X

Y

L

B

_

L

A

C

P

E

 

:

 

I

G

G

G

A

K

S

A

L

W

L

Q

I

Q

A

D

I

F

N

C

K

V

V

S

L

K

N

E

Q

G

P

G

M

G

A

A

M

I

A

A

T

G

L

G

W

F

K

T

L

AD C A Q   :   2 0 5

L

Y

X

K

_

H

A

E

I

N

 

:

 

T

G

G

P

A

K

S

E

V

W

M

Q

M

L

A

D

I

S

G

M

R

L

E

I

P

N

I

E

E

T

G

C

L

G

A

A

L

M

A

M

Q

A

E

S

A

V

E

I

S

QI L N I   :   2 0 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

G

G

 

 

 

 

 

 

 

 

Q

 

 

 

D

6

 

 

 

 

6

 

 

p

 

 

 

2

 

 

 

6

G

A

a

 

6

a

 

 

a

 

g

 

 

 

 

 

                    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

0

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

 

 

 

 

G

L

P

K

_

E

C

O

L

I

 

:

 

K

A

V

I

E

R

E

F

R

P

G

I

E

T

T

E

R

N

-

-

 

:

 

2

2

6

G

N

T

K

_

B

A

C

L

I

 

:

 

M

I

G

S

T

H

R

H

A

P

K

E

E

S

A

K

E

Y

R

-

 

:

 

2

3

4

G

L

P

K

_

B

A

C

S

U

 

:

 

Q

W

N

L

D

K

R

F

E

P

E

L

E

E

E

K

R

N

-

-

 

:

 

2

2

6

X

Y

L

B

_

L

A

C

P

E

 

:

 

T

F

V

H

Y

G

K

A

Y

Y

P

V

T

A

H

V

A

Q

Y

Q

 

:

 

2

2

5

L

Y

X

K

_

H

A

E

I

N

 

:

 

D

R

K

I

F

L

P

D

K

N

Q

Y

S

K

Y

Q

-

-

-

-

 

:

 

2

1

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Что можно сказать о сравнении этих двух выравниваний:

Для установления соответствия между выравниваниями, в каждой последовательности из clustalw.msf был отмечен участок, попавший в benchmark.msf. Далее было проведено сравнение двух фрагментов выравнивания. Мерой сходства: число совпадающих колонок, деленное на общее количество колонок в benchmark.msf.

В итоге число совпадающих колонок: 59, а число колонок в benchmark.msf: 67. Таким образом, процент идентичности двух выравниваний составляет 88%.

Получение матрицы попарного совпадения последовательностей

Ниже для обоих фрагментов приведены матрицы попарного совпадения последовательностей, полученные посредством программы GeneDoc.

Матрица для фрагмента эталонного выравнивания:

 
          GLPK_ECOLI GNTK_BACLI GLPK_BACSU XYLB_LACPE LYXK_HAEIN 
GLPK_ECOLI   100%                                                                                    
GNTK_BACLI    31%       100%                                                               
GLPK_BACSU    68%        37%       100%                                          
XYLB_LACPE    28%        37%        25%      100%                     
LYXK_HAEIN    18%        27%        15%       24%       100%

Матрица для фрагмента выравнивания, полученного программой ClustalW:

 
          GLPK_ECOLI GNTK_BACLI GLPK_BACSU XYLB_LACPE LYXK_HAEIN 
GLPK_ECOLI   100%                                                                        
GNTK_BACLI    21%       100%                                                               
GLPK_BACSU    65%        21%       100%                                          
XYLB_LACPE    19%        26%        19%      100%                     
LYXK_HAEIN    17%        21%        17%       21%       100%

 


На главную страницу второго семестра

На главную


© Кузеванов Алексей,2005