Мотивы, паттерны и профили

  1. Создание паттернов аминокислотных последовательностей

    Импортировал в GeneDoc множественное выравнивание белка DPS_ECOLI и 6 его гомологов, полученное с помощью программы muscle myproteins_aligned.fasta:

    Выбрал из выравнивания небольшой фрагмент длиной 14 аминокислотных остатков, из которых 3 оказались консервативными на 100%, 1 - на 86%, и 3 - на 71%, а в середине имеется гэп из 3 пробелов в 6 последовательностях из 7. Фрагмент сохранил в файле fragment.msf:

    Открыть фрагмент выравнивания в отдельном окне

    Создал три паттерна, отвечающие фрагменту выравнивания. Первый паттерн представляет собой в точности фрагмент последовательности белка DPS_ECOLI. Второй ("сильный") паттерн распознает только последовательности фрагмента выравнивания (все семь). Третий ("слабый") паттерн отвечает более мягким требованиям к последовательностям.

    Таблица результатов поиска по паттернам в базе данных SwissProt
    Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
    Фрагмент последовательности KAIGEAKDDDT В 23 Нет, из выравнивания найдена лишь последовательность DPS_ECOLI
    Сильный [KDQ]-[AT]-I-[DEGT]-[DEK]-[SITAV]-[DQEK]-X(0,3)-D-[PED]-[TIADN]-[TS] В 59 Все
    Слабый {AG}-[AT]-I-X-[DEK]-X-[DQEK]-X(0,3)-D-{AG}-X-[TS] В 948 Все

    По первому, самому строгому, паттерну (представляющему собой фрагмент последовательности белка DPS_ECOLI) с помощью PROSITE в базе данных SwissProt было найдено 23 последовательности, 15 из которых - это исходный белок DPS_ECOLI (просто найденный в разных штаммах бактерии Escherichia coli). Среди оставшихся 8 последовательностей:
    одна - белок DPS_ESCF3 из бактерии Escherichia fergusonii, принадлежащей тому же роду, что и E.coli (роду Escherichia);
    вторая и третья - белки DPS_KLUCI и DPS_PROVU из бактерий Kluyvera cryocrescens и Proteus vulgaris, принадлежащих тому же семейству, что и E.coli (семейству Enterobacteriaceae)
    остальные пять - белки DPS из разных видов рода Shigella, также принадлежащих семейству Enterobacteriaceae.
    Причем, с помощью BLASTP я выяснил, что последовательности всех этих белков, кроме DPS_PROVU, абсолютно идентичны последовательности DPS_ECOLI, а белок DPS_PROVU отличается от DPS_ECOLI всего одним аминокислотным остатком (167-й остаток у этого белка - аргинин, в то время как у DPS_ECOLI - глутаминовая кислота).

    Естественно, более мягкий паттерн (но все равно достаточно сильный) выявил большее количество белков (59 последовательностей), среди которых нашлись все 7 выравненных белков. Причем, все 59 найденных белков принадлежат семейству DPS, что говорит о том, что паттерн оказался, хоть и более мягким по сравнению с первым, весьма точным. В частности, были найдены белки DPS из многих видов рода Salmonella и рода Yersinia.

    Ну и самый мягкий паттерн выдал, разумеется, самое большое количество белков (целых 948 последовательностей). Причем, найдено было множество белков совершенно из других семейств, нежели DPS, что говорит о том, что такой "слабый" паттерн нельзя применять для поиска мотива в возможных гомологах белков.

    В общем, на мой взгляд, самым оптимальным является второй ("сильный") паттерн, поскольку он, во-первых, выдал последовательности всех белков из множественного выравнивания, чего не сделал первый паттерн, а во-вторых, не выдал "лишних" белков, относящихся к совершенно другим семействам и выполняющих совершенно другие функции, что сделал мягкий паттерн. Таким образом, создание паттернов требует внимательного подхода, оптимальный паттерн должен быть не слишком жестким и не слишком мягким.
  2. Все описанные в PROSITE мотивы в заданном белке DPS_ECOLI

    Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
    PS00818 DPS_1 Dps protein family signature 1 (подпись №1 семейства белков DPS) паттерн H-[FW]-x-[LIVM]-x-G-x(5)-[LV]-H-x(3)-[DE] специфична 1
    PS00819 DPS_2 Dps protein family signature 2 (подпись №2 семейства белков DPS) паттерн [LIVMFY]-[DH]-x-[LIVM]-[GA]-E-R-x(3)-[LIF]-[GDN]-x(2)-[PA] специфична 1
    PS00005 PKC_PHOSPHO_SITE Protein kinase C phosphorylation site (сайт фосфорилирования протеинкиназы С) паттерн [ST]-x-[RK] неспецифична 2
    PS00006 CK2_PHOSPHO_SITE Casein kinase II phosphorylation site (сайт фосфорилирования казеинкиназы II) паттерн [ST]-x(2)-[DE] неспецифична 4
    PS00004 CAMP_PHOSPHO_SITE cAMP- and cGMP-dependent protein kinase phosphorylation site (сайт фосфорилирования cAMP- и cGMP-зависимой протеинкиназы) паттерн [RK](2)-x-[ST] неспецифична 1
    PS00008 MYRISTYL N-myristoylation site (сайт N-миристоилирования) паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 1

    Как видно из таблицы, специфичных мотивов в белке содержится лишь два, оба они характеризуют семейство белков DPS, стало быть присущи всем белкам из данного семейства. В моем примере очень интересным мне показалось то, что в большинстве случаев паттерны неспецифичных мотивов гораздо короче (а следовательно и "слабее") паттернов специфичных мотивов. Впрочем, мне кажется, что это вполне логично, ведь специфичные мотивы присущи лишь определенной группе схожих между собой белков, имеющих общее происхождение, то есть гомологичных друг другу. Неспецифичные же мотивы, не влияющие кардинально на функцию белка, могут присутствовать в далеких друг от друга белках, вследствие чего не могут быть очень длинными (ведь между этими белками зачастую огромный эволюционный путь).

Назад