Создание паттернов для поиска и распознавания аминокислотных последовательностей


Паттерны строились на базе этого кусочка выравнивания.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

*

 

 

 

 

 

 

 

 

 

 

 

G

L

P

K

_

L

I

S

I

N

 

:

 

E

K

K

Y

I

L

A

L

D

Q

G

T

T

S

S

 

:

 

1

5

 

G

L

P

K

_

T

H

E

A

Q

 

:

 

M

N

Q

Y

I

L

A

I

D

Q

G

T

T

S

S

 

:

 

1

5

 

G

L

P

K

_

B

A

C

A

N

 

:

 

M

K

K

Y

I

L

S

L

D

Q

G

T

T

S

S

 

:

 

1

5

 

G

L

P

K

_

E

C

O

L

I

 

:

 

E

K

K

Y

I

V

A

L

D

Q

G

T

T

S

S

 

:

 

1

5

 

G

L

P

K

_

C

L

O

A

B

 

:

 

M

K

K

Y

I

I

A

L

D

Q

G

T

T

S

S

 

:

 

1

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

k

Y

I

6

a

6

D

Q

G

T

T

S

S

 

 

 

 

 

 



Характеристика паттерна

Паттерн

В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну?

Все ли последовательности из Вашего выравнивания найдены?

Фрагмент последовательности

EKKYIVALDQGTTSS

1

Нет, только последовательность GLPK_ECOLI

Сильный

[EM]-[KN]-[KQ]-YI-[LVI]-[AS]-[LI]-DQGTTSS

8

да

Слабый

YI-X(3)-DQGTTSS

31

да



Обратим внимание на то, что для белка GLPK_ECOLI существует относительно большое количество гомологов с идентичностью 40-80%. Этим объясняет то, что не просто при сильном паттерне (не говоря уже про слабый), но даже при таком, которому соответствует полностью безвариантный внутри себя участок последовательности, соответствует целых  белков и соответственно  и  для сильного и слабого.

Откуда что получилось:

  С помощью программы blastp нашел в банке Swiss-Prot предпологаемые гомологи белка GLPK_ECOLI.

  Из них выбрал 4 наиболее вероятных ортологов

  Получил файл с последовательностями белка GLPK_ECOLI и всех отобранных "ортологов" в формате FASTA, названия последовательностей представляют собой ID записей Swiss-Prot

  С помощью программы muscle построил множественное выравнивание белка и его "ортологов".

  Импортировал его в GeneDoc.

  Выбрал консервативный фрагмент выравнивания длиной 15 а.о. для дальнейшего исследования.

  Экспортировал фрагмент в HTML-формат.

  Создал паттерны по множественному выравниванию и провел поиск по паттернам в банке данных Swiss-Prot

  Рассмотрел выбранный фрагмент множественного выравнивания.

  Создал паттерны и записал их в таблицу, см. выше.

  Первый паттерн в точности является фрагментом последовательности GLPK_ECOLI.

  Второй ("сильный") паттерн построен так, чтобы он распознавал все белки моей выборки

  Третий ("слабый") паттерн создан на основе второго, требования к последовательности более мягкие.

  Основные элементы синтаксиса паттернов:

o        [ALK] — в данной позиции разрешены только остатки в квадратных скобках;

o        Х(3) — интервал в 3 любых остатка;

o        {WY} — запрет на остатки в фигурных скобках,

 

 


На главную страницу второго семестра

На главную


© Кузеванов Алексей,2005