1.Создание паттернов по множественному выравниванию и поиск по паттернам в банке данных Swiss-Prot
При выполнении упражнения 1 предыдущего занятия был получен вот такой файл выравнивания (то есть выравнивания моего белка 1WKQ и его гипотетических гомологов).
Рассмотрим в JalView это множественное выравнивание и выберем фрагмент длиной 8–20 а.о. для дальнейшего исследования так, чтобы от трети до половины колонок фрагмента были консервативны на 70–100%.
Я выбрала такой фрагмент:

Теперь расмотрим этот фрагмент и запишем три паттерна для него:
Характеристика паттерна | Паттерн | Число последовательностей банка Swiss-Prot с мотивом, удовлетворяющим паттерну? | Число последовательностей из моего выравнивания |
Фрагмент последовательности | NDPTAHAEVTAIRKAC | 1 | Нашлась только последовательность моего белка GUAD_BACSU (как и должна была найтись) |
Сильный | [NK]-[NDY]-[PSGA]-[TEL]-[AY]-H-A-E-[VMI]-[TLIH]-A-[LI]-[RKHN]-[KEMN]-A-[GC] | 7 | Нашлись все белки из моего выравнивания, даже больше. Все они принадлежат к одному семейству (Cytidine_deaminase-like) |
Слабый | [NKRQ]-[NDEQY]-X(2)-[AY]-H-A-E-[VMLCI]-X-A-[LVMI]-X(2)-A-[GC] | 9 | Нашлись все белки из моего выравнивания, даже больше. |
- Первый паттерн в точности является фрагментом последовательности моего белка (то есть только одной из последовательностей выравнивания).
- Второй ("сильный") паттерн запишем так, чтобы он распознавал все белки из выравнивания, и только их. Для этого включим в него все позиции выбранного фрагмента выравнивания, а в каждой позиции разрешим все буквы, встретившиеся в этой позиции, и только их.
- Третий ("слабый") паттерн создадим на основе второго, сделав требования к последовательности более мягкими.
Результат сильного паттерна содержит только "хорошие" гомологи, но, очевидно, далеко не все.
Не получилось ослабить паттерн так, чтобы нашлось побольше гомологов. Если сделать такой патерн (с множеством Х)
[NKRQ]-X(3)-[AY]-H-A-E-[VMLCI]-X-A-X(3)-A-[GC],то находок все равно остается 9!
2. Поиск и описание мотивов в моем белке GUAD_BACSU по данным БД Prosite
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн | Специфичность подпписи | Число мотивов в белке |
PS00903 | CYT_DCMP_DEAMINASES | Cytidine and deoxycytidylate deaminases zinc-binding region signature | Паттерн | [CH]-[AGV]-E-x(2)-[LIVMFGAT]-[LIVM]-x(17,33)-P-C-x(2,8)-C-x(3)-[LIVM] [The C's and H are zinc ligands] |
Специфична | 1 |
PS00008 | MYRISTYL | Сайт N-миристоилирования | Паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}
[G is the N-myristoylation site] |
Неспецифична | 3 |
PS00001 | ASN_GLYCOSYLATION | N-glycosylation site | Паттерн | N-{P}-[ST]-{P} [N is the glycosylation site] |
Неспецифична | 1 |
PS00006 | CK2_PHOSPHO_SITE | Casein kinase II phosphorylation site | Паттерн | [ST]-x(2)-[DE] [S or T is the phosphorylation site] |
Неспецифична | 3 |
Наверх