Паттерны и банк PROSITE
Рассмотрим в JalView множественное выравнивание, полученное при выполнении упражнения 1 прошлого занятия. Выбранный фрагмент выравнивания:
Теперь создаем три паттерна.
1. Первый паттерн в точности является фрагментом последовательности нашего белка.
2. Второй ("сильный") паттерн постараемся построить так, чтобы он распознавал все белки выборки, и только их.
3. Третий ("слабый") паттерн создадим на основе второго, сделав требования к последовательности более мягкими.
Стремиться надо к тому, чтобы паттерн находил всех близких родственников белка и не находил неродственные белки.
Основные правила синтаксиса берем из prosite.expacy.org):
По результатам первого поиска получаем:
sp|P32153|FRVX_ECOLI 63 70 USERPAT1 . . . DEVGFMVT sp|P94521|YSDC_BACSU 70 77 USERPAT1 . . . DEVGFMVT sp|O34924|YTOP_BACSU 68 75 USERPAT1 . . . DEVGFMVT
По результатам второго:
sp|P0A949|RIMJ_ECO57 155 165 USERPAT1 . . . LLARLGFEKEG sp|P0A948|RIMJ_ECOLI 155 165 USERPAT1 . . . LLARLGFEKEG sp|Q9I2H6|RIMJ_PSEAE 154 164 USERPAT1 . . . LLESLGFEKEG sp|P0A950|RIMJ_SHIFL 155 165 USERPAT1 . . . LLARLGFEKEG sp|P13857|RIML_ECOLI 144 154 USERPAT1 . . . VALRNGFILEG sp|O06632|Y802_MYCTU 157 167 USERPAT1 . . . VSRRNGYRDNG sp|P96579|YDAF_BACSU 144 154 USERPAT1 . . . VPERIGFLEEG
По результатам третего поиска, получаем 12 последовательностей:
sp|Q8DV44|ARGB_STRMU 142 152 USERPAT1 . . . IlASLGYskEG sp|A6UPL5|COBQ_METVS 405 415 USERPAT1 . . . ItLSNGFgnLG sp|Q54873|HYSA_STRPN 1045 1055 USERPAT1 . . . IlASLGFllLG sp|P39730|IF2P_YEAST 649 659 USERPAT1 . . . ViLSNGYlrEG sp|Q6BJJ8|LONP2_DEBHA 924 934 USERPAT1 . . . VfESIGFnhEG sp|Q5HRA9|MNHD2_STAEQ 303 313 USERPAT1 . . . ViLSIGFiiLG sp|Q8CQ47|MNHD2_STAES 304 314 USERPAT1 . . . ViLSIGFiiLG sp|Q4L446|MNHD2_STAHJ 304 314 USERPAT1 . . . ViLSIGFviLG sp|Q49VH2|MNHD2_STAS1 305 315 USERPAT1 . . . ViLSIGFiiLG sp|Q1QQJ4|MUTS_NITHX 606 616 USERPAT1 . . . VdASLGFaiEG sp|A4GG94|NDHJ_PHAVU 15 25 USERPAT1 . . . IhRSLGFdyLG sp|Q1ARR5|RBSA3_RUBXD 356 366 USERPAT1 . . . LpARLGFigLG sp|P0A949|RIMJ_ECO57 155 165 USERPAT1 . . . LlARLGFekEG sp|P0A948|RIMJ_ECOLI 155 165 USERPAT1 . . . LlARLGFekEG sp|Q9I2H6|RIMJ_PSEAE 154 164 USERPAT1 . . . LlESLGFekEG sp|P0A950|RIMJ_SHIFL 155 165 USERPAT1 . . . LlARLGFekEG sp|P13857|RIML_ECOLI 144 154 USERPAT1 . . . VaLRNGFilEG sp|O06632|Y802_MYCTU 157 167 USERPAT1 . . . VsRRNGYrdNG sp|P96579|YDAF_BACSU 144 154 USERPAT1 . . . VpERIGFleEGОслабление паттерна показывает: участок консервативен для данных гомологов, но он не характерен только лишь для них (в выборке их 5 против 19); помимо ацетилотрансфераз в выборку попали семейство транспортных антипортных белков (MNHD2_STAEQ, MNHD2_STAES, MNHD2_STAHJ, MNHD2_STAS1, MUTS_NITHX) и ряд сторонних белков из других семейств.
Таблица "Поиск по паттернам в банке данных Swiss-Prot":
Характеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Все ли последовательности из выравнивания найдены (если нет, то сколько) |
Фрагмент последовательности | VPERIGFLEEG | 1 | Единственная, соответствующая этому паттерну |
Сильный | [VL]-[PALS]-[ELAR]-[RS]-[ILN]-G-[FY]-[LIER]-[ELKD]-[EN]-G | 7 | все 5 |
Слабый | [VLI]-x-[ELAR]-[RS]-[VILN]-G-[FY]-x-x-[ELN]-G | 19 | все 5 |
2. Все описанные в PROSITE мотивы в заданном белке YDAF_BACSU.
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS51186 | GNAT | Gcn5-related N-acetyltransferase (GNAT) domain profile | профиль | ITIRLLEPKDAERLAELIIQNQQRlgkwlffaenpSSADTYRETIIPDWRRqyadlngiE AGLLYDGSLCGMISLHNLDQvnRKAEIGYWIAKEFEGKGIITAACRKLITYAFEELElNR VAICAAVGNEKSRAVPERIGFLEEGKARDGLYVngmhhDLVYYSLLK | специфична | 1 |
PS00005 | PKC_PHOSPHO_SITE | Protein kinase C phosphorylation site | паттерн | [ST]-x-[RK] | неспецифична | 3 |
PS00006 | CK2_PHOSPHO_SITE | Casein kinase II phosphorylation site | паттерн | [ST]-x(2)-[DE][SorTisthephosphorylationsite] | неспецифична | 2 | PS00008 | MYRISTYL | N-myristoylation site | паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}[GistheN-myristoylationsite] | неспецифична | 5 | PS00007 | TYR_PHOSPHO_SITE | Tyrosine kinase phosphorylation site | паттерн | [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y | неспецифична | 2 |