8 (926) 907 94 08 Здесь должен быть мальчик с мензуркой!
Всё на свете является чудом!

 

Паттерны и банк Prosite

1. Создание паттернов по множественному выравниванию. Поиск по паттернам в банке данных Swiss-Prot.

В программе JalView рассмотрим множественное выравнивание, полученное при изучении последовательностей белка THIS_BACSU и его гомологов в первом задании предыдущего занятия.

Выберем фрагмент выравнивания длиной 8 - 20 аминокислотных остатков для дальнейшего исследования, стараясь, чтобы 1/3 - 1/2 колонок фрагмента были консервативны на 70 – 100%:



Выбранный фрагмент имеет координаты 63-74 (по столбцам выравнивания):


Рассмотрев выбранный фрагмент выравнивания, создадим три паттерна, пользуясь основными элементами синтаксиса паттернов.


Первый паттерн - является фрагментом последовательности белка
THIS_BACSU.
Это легко проверить, проведя поиск последовательностей банка Swiss-Prot на сайте PROSITE, включающих мотивы, соответствующие указанному паттерну:

D-V-I-E-I-V-H-F-V-G-G-G

В результате получаем:



Таким образом, мотив, удовлетворяющий паттерну, являющемуся фрагментом последовательности белка
THIS_BACSU, найден только в одной последовательности банка Swiss-Prot, причём эта последовательность является последовательностью белка THIS_BACSU.


Второй (сильный) паттерн - распознаёт все белки моей выборки.
Создаётся он путём включения всех позиций выбранного фрагмента выравнивания, а в каждой позиции (кроме, разумеется, тех, в которых оказались гэпы) разрешаются все буквы, встретившиеся в этой позиции.

Проведём поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие составленному паттерну:

D-[VQK]-[ILV]-E-[IV]-[VI]-[HAT]-[FI]-[VI]-G-G-G

В результате получаем:



Таким образом, мотив, удовлетворяющий составленному сильному паттерну, найден в семи последовательностях банка Swiss-Prot, шесть из которых являются последовательностями из рассматриваемого выравнивания.
Седьмой
находке соответствует последовательность белка THIG_RHORT.

Все последовательности из рассматриваемого выравнивания найдены.


Третий (слабый) паттерн - находит всех близких родственников моего белка и не находит неродственные белки.
Чтобы создать такой паттерн, можно в позициях, в которых 5 или более разных букв, заменить список этих букв буквой "x", также мы можем сократить или модифицировать паттерн.

Выполним поиск последовательностей банка
Swiss-Prot, включающих мотивы, соответствующие созданному паттерну:

[NHD]-[VQIK]-[ILMV]-[EQ]-[ILMV]-[VLMI]-[HAST]-[FVLI]-[VLI]-[AGTVLIMF]-[AGTVLIMF]-[AGTVLIMF]

В результате получаем:



Таким образом, мотив, удовлетворяющий составленному слабому паттерну, нашёлся в одиннадцати последовательностях банка Swiss-Prot, шесть из которых являются последовательностями из рассматриваемого выравнивания. Все последовательности из рассматриваемого выравнивания найдены.


Таблица: "Результаты поиска по паттернам в банке данных Swiss-Prot"


Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько)
Фрагмент последовательности D-V-I-E-I-V-H-F-V-G-G-G

1

1

Сильный D-[VQK]-[ILV]-E-[IV]-[VI]-[HAT]-[FI]-[VI]-G-G-G

7

Все (6)
Слабый [NHD]-[VQIK]-[ILMV]-[EQ]-[ILMV]-[VLMI]-[HAST]-[FVLI]-[VLI]-[AGTVLIMF]-[AGTVLIMF]-[AGTVLIMF]

11

Все (6)

1*. Оценка встречаемости слабого паттерна

Чтобы оценить, сколько раз слабый паттерн встретится в случайном банке размером Swiss-Prot необходимо сначала вычислить примерную частоту встречаемости каждой буквы в последовательностях, содержащихся в этом банке.
 
Это можно сделать, например, при помощи команды wordcount пакета EMBOSS: (wordcount sw:*_bacsu bacsu.wordcount -wordsize 1)
 
Так мы оценили встречаемость букв в последовательностях белков Bacillus subtilis и получили файл bacsu.wordcount, содержащий данные о том, сколько раз каждая буква встретилась в заданной области поиска.

Для вычисления частоты встречаемости каждой буквы напишем файл wordcount.py. После запуска этого файла мы получим файл wordcount.txt, содержащий искомые примерные частоты встречаемости каждой буквы.

Теперь оценим, сколько раз слабый паттерн встретится в случайном банке размером примерно 20 миллионов букв, произведя математические вычисления:

(0,04+0,02+0,05)*(0,07+0,04+0,07+0,07)*(0,07+0,1+0,03+0,07)*(0,07+0,04)*(0,07+0,1+0,03+0,07)*(0,07+0,1+0,03+0,07)*(0,02+0,08+0,06+0,05)*(0,05+0,07+0,1+0,07)*(0,07+0,1+0,07)*(0,08+0,07+0,05+0,07+0,1+0,07+0,03+0,05)*(0,08+0,07+0,05+0,07+0,1+0,07+0,03+0,05)*(0,08+0,07+0,05+0,07+0,1+0,07+0,03+0,05) = 0,0000001223644427381376

Поиск паттерна в перемешанном банке результатов не даёт: "no hit!".
(Это неудивительно, если учесть, какое число мы получили при вычислениях.)
Как мы видим, в неперемешанном банке удалось найти на 11 результатов больше. В данном случае действительно можно говорить о родственности найденных по слабому паттерну белков.

2. Поиск и описание мотивов в белке THIS_BACSU по данным БД Prosite

Таблица: "Все описанные в PROSITE мотивы в заданном белке THIS_BACSU"

Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи Паттерн Специфичность подписи Число найденных в белке мотивов
 PS00004 CAMP_PHOSPHO_SITE подпись участка фосфорилирования протеинкиназы паттерн [RK](2)-x-[ST] неспецифична 1
 PS00006 CK2_PHOSPHO_SITE подпись участка фосфорилирования казеин киназы паттерн [ST]-x(2)-[DE] неспецифична 1

Главная
Об авторе
Учебные семестры
Проекты автора
Друзья
Ссылки партнеров
Extra
Контакты


Главная Об авторе Учебные семестры Проекты автора Друзья Ссылки партнеров Extra Контакты

Mneff © 2011-2012