Паттерны и банк PROSITE



Создание паттернов аминокислотных последовательностей.

Рассмотрим в JalView множественное выравнивание, полученное при выполнении упражнения 1 прошлого занятия. Выбранный фрагмент выравнивания:

Теперь создаем три паттерна.
1. Первый паттерн в точности является фрагментом последовательности нашего белка.
2. Второй ("сильный") паттерн постараемся построить так, чтобы он распознавал все белки выборки, и только их.
3. Третий ("слабый") паттерн создадим на основе второго, сделав требования к последовательности более мягкими. Стремиться надо к тому, чтобы паттерн находил всех близких родственников белка и не находил неродственные белки.

Основные правила синтаксиса берем из prosite.expacy.org):

По результатам первого поиска получаем:

sp|P32153|FRVX_ECOLI	63	70	USERPAT1	.	.	.	DEVGFMVT

sp|P94521|YSDC_BACSU	70	77	USERPAT1	.	.	.	DEVGFMVT

sp|O34924|YTOP_BACSU	68	75	USERPAT1	.	.	.	DEVGFMVT

По результатам второго:

sp|P0A949|RIMJ_ECO57	155	165	USERPAT1	.	.	.	LLARLGFEKEG

sp|P0A948|RIMJ_ECOLI	155	165	USERPAT1	.	.	.	LLARLGFEKEG

sp|Q9I2H6|RIMJ_PSEAE	154	164	USERPAT1	.	.	.	LLESLGFEKEG

sp|P0A950|RIMJ_SHIFL	155	165	USERPAT1	.	.	.	LLARLGFEKEG

sp|P13857|RIML_ECOLI	144	154	USERPAT1	.	.	.	VALRNGFILEG

sp|O06632|Y802_MYCTU	157	167	USERPAT1	.	.	.	VSRRNGYRDNG

sp|P96579|YDAF_BACSU	144	154	USERPAT1	.	.	.	VPERIGFLEEG

Получаем 7 результатов. Значит, участок выбран довольно консервативный. Все последовательности из выравнивания нашлись.
Ослабляем паттерн.

По результатам третего поиска, получаем 12 последовательностей:

sp|Q8DV44|ARGB_STRMU	142	152	USERPAT1	.	.	.	IlASLGYskEG

sp|A6UPL5|COBQ_METVS	405	415	USERPAT1	.	.	.	ItLSNGFgnLG

sp|Q54873|HYSA_STRPN	1045	1055	USERPAT1	.	.	.	IlASLGFllLG

sp|P39730|IF2P_YEAST	649	659	USERPAT1	.	.	.	ViLSNGYlrEG

sp|Q6BJJ8|LONP2_DEBHA	924	934	USERPAT1	.	.	.	VfESIGFnhEG

sp|Q5HRA9|MNHD2_STAEQ	303	313	USERPAT1	.	.	.	ViLSIGFiiLG

sp|Q8CQ47|MNHD2_STAES	304	314	USERPAT1	.	.	.	ViLSIGFiiLG

sp|Q4L446|MNHD2_STAHJ	304	314	USERPAT1	.	.	.	ViLSIGFviLG

sp|Q49VH2|MNHD2_STAS1	305	315	USERPAT1	.	.	.	ViLSIGFiiLG

sp|Q1QQJ4|MUTS_NITHX	606	616	USERPAT1	.	.	.	VdASLGFaiEG

sp|A4GG94|NDHJ_PHAVU	15	25	USERPAT1	.	.	.	IhRSLGFdyLG

sp|Q1ARR5|RBSA3_RUBXD	356	366	USERPAT1	.	.	.	LpARLGFigLG

sp|P0A949|RIMJ_ECO57	155	165	USERPAT1	.	.	.	LlARLGFekEG

sp|P0A948|RIMJ_ECOLI	155	165	USERPAT1	.	.	.	LlARLGFekEG

sp|Q9I2H6|RIMJ_PSEAE	154	164	USERPAT1	.	.	.	LlESLGFekEG

sp|P0A950|RIMJ_SHIFL	155	165	USERPAT1	.	.	.	LlARLGFekEG

sp|P13857|RIML_ECOLI	144	154	USERPAT1	.	.	.	VaLRNGFilEG

sp|O06632|Y802_MYCTU	157	167	USERPAT1	.	.	.	VsRRNGYrdNG

sp|P96579|YDAF_BACSU	144	154	USERPAT1	.	.	.	VpERIGFleEG

Ослабление паттерна показывает: участок консервативен для данных гомологов, но он не характерен только лишь для них (в выборке их 5 против 19); помимо ацетилотрансфераз в выборку попали семейство транспортных антипортных белков (MNHD2_STAEQ, MNHD2_STAES, MNHD2_STAHJ, MNHD2_STAS1, MUTS_NITHX) и ряд сторонних белков из других семейств.

Таблица "Поиск по паттернам в банке данных Swiss-Prot":

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из выравнивания найдены (если нет, то сколько)
Фрагмент последовательности VPERIGFLEEG 1 Единственная, соответствующая этому паттерну
Сильный [VL]-[PALS]-[ELAR]-[RS]-[ILN]-G-[FY]-[LIER]-[ELKD]-[EN]-G 7 все 5
Слабый [VLI]-x-[ELAR]-[RS]-[VILN]-G-[FY]-x-x-[ELN]-G 19 все 5

2. Все описанные в PROSITE мотивы в заданном белке YDAF_BACSU.

Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн Специфична ли подпись? Сколько мотивов нашлось в белке?
PS51186 GNAT Gcn5-related N-acetyltransferase (GNAT) domain profile профиль ITIRLLEPKDAERLAELIIQNQQRlgkwlffaenpSSADTYRETIIPDWRRqyadlngiE AGLLYDGSLCGMISLHNLDQvnRKAEIGYWIAKEFEGKGIITAACRKLITYAFEELElNR VAICAAVGNEKSRAVPERIGFLEEGKARDGLYVngmhhDLVYYSLLK специфична 1
PS00005 PKC_PHOSPHO_SITE Protein kinase C phosphorylation site паттерн [ST]-x-[RK] неспецифична 3
PS00006 CK2_PHOSPHO_SITE Casein kinase II phosphorylation site паттерн [ST]-x(2)-[DE][SorTisthephosphorylationsite] неспецифична 2
PS00008 MYRISTYL N-myristoylation site паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}[GistheN-myristoylationsite] неспецифична 5
PS00007 TYR_PHOSPHO_SITE Tyrosine kinase phosphorylation site паттерн [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y неспецифична 2