Паттерны и профили

на главную
  • 1)Создание паттернов аминокислотных последовательностей

    Импортировала в Genedoc множественное выравнивание, полученное на прошлом занятии с помощью muscle : Картинка из GeneDoc myproteins.gif

    Выбрала фрагмент выравнивания длиной 13 а.о. для дальнейшего исследования

    Рассмотрела выбранный мной фрагмент множественного выравнивания. Создала 3 паттерна, записанные в таблицу, см. ниже.

    1. Первый паттерн в точности является фрагментом последовательности белка RBSB_ECOLI (то есть только одной из последовательностей выравнивания)
    2. Второй ("сильный") паттерн надо постараться построить так, чтобы он распознавал все белки Вашей выборки, и только их (другой вопрос, что паттерн будет находить в действительности:)
    3. Третий ("слабый") паттерн надо создать на основе второго, сделав требования к последовательности более мягкими.

    Провела поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов

    По результатам упражнения заполнила табличку следующего вида:

    Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
    Фрагмент последовательности белка RBSB_ECOLI RALQTAGKSDV 1 из выравнивания найдена лишь последовательность моео белка RBSB_ECOLI
    Сильный [KQER]-A-[AILV]-[HKANQ]-[MEANST]-[MAS]-[GN]-X(0,1)-[RK]-X(0,3)-[DSK]-[LIV] 133 все
    Слабый {AG}-A-[AILV]-[HKANQ]-[MEANST]-[MAS]-[GN]-X(0,1)-[RK]-X(0,3)-[DSK] 998 все
    Более "мягкий" паттерн нашел самое большое количество белков 998, и встречались белки из разных семейств. Следовательно, "слабый" паттерн неудобен для поиска мотивов в гомологах белков. Самым оптимальным является "сильный" паттерн, потому что он нашел последовательности всех белков из множественного выравнивания и не выдал белков, которые относятся к другим семействам, в отличие от "слабого". Таким образом, паттерн должен быть не очень жестким и не очень мягким для достижения наилучшего результата.

  • 2)Все описанные в PROSITE мотивы в заданном белке RBSB_Ecoli

    Нашла в последовательности моего белка все мотивы, описанные в PROSITE, в том числе неспецифичные (часто встречающиеся). По результатам поиска составила следующую таблицу.
    Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
    PS00005 PKC_PHOSPHO_SITE Protein kinase C phosphorylation site (сайт фосфорилирования протеинкиназы С) паттерн [ST] - x - [RK] неспецифична 2
    PS00006 CK2_PHOSPHO_SITE Casein kinase II phosphorylation site (сайт фосфорилирования казеинкиназы II) паттерн [ST] - x(2) - [DE] неспецифична 3
    PS00007 TYR_PHOSPHO_SITE Tyrosine kinase phosphorylation site (сайт фосфорилирования тирозинкиназы) паттерн [RK] - x(2) - [DE] - x(3) - Y or [RK] - x(3) - [DE] - x(2) - Y неспецифична 1
    PS00008 MYRISTYL N-myristoylation site (сайт N-миристоилирования) паттерн G - {EDRKHPFYW} - x(2) - [STAGCN] - {P} неспецифична 6
    PS00017 ATP_GTP_A ATP/GTP-binding site motif A (P-loop) (ATP/GTP-связывающий сайт мотива А (P-петля) паттерн [AG] - x(4) - G - K - [ST] неспецифична 1
    Из таблицы видно, что специфичных мотивов нет (те, которые отвечают семействам белков). Паттерны неспецифичных мотивов короткие, т.е. "слабые", потому что неспецифичные мотивы могут присутствовать в далеких друг от друга белках.
    ©Старовойтова Анна,2008