DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> Мотивы, MEME и ProSite|Учебный сайт Холиной Татьяны
© Kholina Tatiana, 2013 You can contact me at tatiana96-khol@yandex.ru

Построение слабых и сильных паттернов для заданного мотива

Для этой работы использовалось выравнивание aln17_1.fa из задания 9. В нем был выбран мотив - консервативный участок последовательностей. Мотив был выбран сканированием последовательностей на мотивы из базы ProSite. ProSite нашел мотив SH2 (Src homology 2) во всех последовательностях. Этот мотив состоит примерно из 100 аминокислотных остатков, его функция - связываться с фосфотирозин-содержащими белками, часто участвующими в сигнальных каскадах. Однако для дальнейшей работы я взяла часть этого мотива с 1 по 41 аминокислоты, поскольку дальше шел малоконсервативный участок с гэпами.

Рис.1. Мотив в выравнивании

Сильный паттерн

Для этого мотива был создан сильный паттерн. Он строился по принципу: если в колонке встречаются более 5 разных аминокислот, и они не состоят в одной группе (например, гидрофобных алифатических), то в паттерне ставился x, иначе все аминокислоты перечислялись. Цель сильного паттерна - найти исключительно гомологичные последовательности, хотя это может обернуться тем, что некоторые гомологи не подойдут под паттерн и не будут найдены.

Паттерн получился такой:

W-Y-[KRQ]-P-x-[IL]-[STN]-R-[DE]-[EQDA]-[AT]-[IVHC]-x-[LAIMV]-[LV]-[KRQA]-x(3)-[PEA]-G-x-F-[IVL]-[IV]-R-[DA]-S-x-[STC]-[FYV]-x-[GDN]-[ASG]-[FY]-[GA]-[LM]-[AVT]-[LIVM]-[KR]-[VA]

То, что паттерн находит все исходные последовательности, было проверено на сайте ProSite (опция 3 - Submit PROTEIN sequences and MOTIFS to scan them against each other). Затем паттерн был проверен на базе UniProt:

В общем, сильный паттерн работает достаточно хорошо, потому что в проверенной базе SwissProt нашел только гомологичные тензину белки, а в TrEMBL подавляющее число известных белков были также гомологичными.

Слабый паттерн

В отличие от сильного, слабый паттерн делается для того, чтобы найти как можно больше гомологов, поэтому условия на колонки ставятся слабее. Обычно в таком случае, кроме гомологов, находится и большое число ложных находок.

Слабый паттерн:

W-Y-x-P-x(3)-R-x(12)-G-x-F-x(2)-R-x-S-x(6)-[FY]-x(4)-[KR]-x

Здесь в основном были перечислены аминокислоты, если в колонке была только одна, либо они все были одной группы. В остальных случаях ставился x. Паттерн находит все искомые последовательности.