8 (926) 907 94 08 |
Всё на свете является чудом! |
|||||||||||||||||||||||||||||||||||||
Паттерны и банк Prosite |
||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1.
Создание паттернов по множественному
выравниванию. Поиск по паттернам в банке данных Swiss-Prot. В программе JalView рассмотрим множественное выравнивание, полученное при изучении последовательностей белка THIS_BACSU и его гомологов в первом задании предыдущего занятия. Выберем фрагмент выравнивания длиной 8 - 20 аминокислотных остатков для дальнейшего исследования, стараясь, чтобы 1/3 - 1/2 колонок фрагмента были консервативны на 70 – 100%: Выбранный фрагмент имеет координаты 63-74 (по столбцам выравнивания): Рассмотрев выбранный фрагмент выравнивания, создадим три паттерна, пользуясь основными элементами синтаксиса паттернов. Первый паттерн - является фрагментом последовательности белка THIS_BACSU. Это легко проверить, проведя поиск последовательностей банка Swiss-Prot на сайте PROSITE, включающих мотивы, соответствующие указанному паттерну: D-V-I-E-I-V-H-F-V-G-G-G В результате получаем: Таким образом, мотив, удовлетворяющий паттерну, являющемуся фрагментом последовательности белка THIS_BACSU, найден только в одной последовательности банка Swiss-Prot, причём эта последовательность является последовательностью белка THIS_BACSU. Второй (сильный) паттерн - распознаёт все белки моей выборки. Создаётся он путём включения всех позиций выбранного фрагмента выравнивания, а в каждой позиции (кроме, разумеется, тех, в которых оказались гэпы) разрешаются все буквы, встретившиеся в этой позиции. Проведём поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие составленному паттерну: D-[VQK]-[ILV]-E-[IV]-[VI]-[HAT]-[FI]-[VI]-G-G-G В результате получаем: Таким образом, мотив, удовлетворяющий составленному сильному паттерну, найден в семи последовательностях банка Swiss-Prot, шесть из которых являются последовательностями из рассматриваемого выравнивания. Седьмой находке соответствует последовательность белка THIG_RHORT. Все последовательности из рассматриваемого выравнивания найдены. Третий (слабый) паттерн - находит всех близких родственников моего белка и не находит неродственные белки. Чтобы создать такой паттерн, можно в позициях, в которых 5 или более разных букв, заменить список этих букв буквой "x", также мы можем сократить или модифицировать паттерн. Выполним поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие созданному паттерну: [NHD]-[VQIK]-[ILMV]-[EQ]-[ILMV]-[VLMI]-[HAST]-[FVLI]-[VLI]-[AGTVLIMF]-[AGTVLIMF]-[AGTVLIMF] В результате получаем: Таким образом, мотив, удовлетворяющий составленному слабому паттерну, нашёлся в одиннадцати последовательностях банка Swiss-Prot, шесть из которых являются последовательностями из рассматриваемого выравнивания. Все последовательности из рассматриваемого выравнивания найдены. Таблица: "Результаты поиска по паттернам в банке данных Swiss-Prot"
1*. Оценка встречаемости слабого паттерна Чтобы оценить, сколько раз слабый паттерн встретится в случайном банке размером Swiss-Prot необходимо сначала вычислить примерную частоту встречаемости каждой буквы в последовательностях, содержащихся в этом банке. Это можно сделать, например, при помощи команды wordcount пакета EMBOSS: (wordcount sw:*_bacsu bacsu.wordcount -wordsize 1) Так мы оценили встречаемость букв в последовательностях белков Bacillus subtilis и получили файл bacsu.wordcount, содержащий данные о том, сколько раз каждая буква встретилась в заданной области поиска. Для вычисления частоты встречаемости каждой буквы напишем файл wordcount.py. После запуска этого файла мы получим файл wordcount.txt, содержащий искомые примерные частоты встречаемости каждой буквы. Теперь оценим, сколько раз слабый паттерн встретится в случайном банке размером примерно 20 миллионов букв, произведя математические вычисления: (0,04+0,02+0,05)*(0,07+0,04+0,07+0,07)*(0,07+0,1+0,03+0,07)*(0,07+0,04)*(0,07+0,1+0,03+0,07)*(0,07+0,1+0,03+0,07)*(0,02+0,08+0,06+0,05)*(0,05+0,07+0,1+0,07)*(0,07+0,1+0,07)*(0,08+0,07+0,05+0,07+0,1+0,07+0,03+0,05)*(0,08+0,07+0,05+0,07+0,1+0,07+0,03+0,05)*(0,08+0,07+0,05+0,07+0,1+0,07+0,03+0,05) = 0,0000001223644427381376 Поиск паттерна в перемешанном банке результатов не даёт: "no hit!". (Это неудивительно, если учесть, какое число мы получили при вычислениях.) Как мы видим, в неперемешанном банке удалось найти на 11 результатов больше. В данном случае действительно можно говорить о родственности найденных по слабому паттерну белков. 2. Поиск и описание мотивов в белке THIS_BACSU по данным БД Prosite Таблица: "Все описанные в PROSITE мотивы в заданном белке THIS_BACSU"
|
Главная | |||||||||||||||||||||||||||||||||||||
Об авторе | ||||||||||||||||||||||||||||||||||||||
Учебные семестры | ||||||||||||||||||||||||||||||||||||||
Проекты автора | ||||||||||||||||||||||||||||||||||||||
Друзья | ||||||||||||||||||||||||||||||||||||||
Ссылки партнеров | ||||||||||||||||||||||||||||||||||||||
Extra | ||||||||||||||||||||||||||||||||||||||
Контакты | ||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||
Mneff © 2011-2012 |