Занятие 11.
Банк Prosite. Паттерн и профиль подсемейства.
Ваша рабочая директория H:\Term4\Practice11. Все файлы, относящиеся
к этому занятию, в том числе протокол выполнения упражнений,
должны лежать в этой директории. Срок выполнения первых двух упражнений
понедельник 28 апреля, третьего понедельник 5 мая (включительно).
- Найдите и опишите паттерн одного из рибосомальных белков бактерий
В рибосомальном белке E.coli, указанном в
таблице
против вашей фамилии, найдите мотивы, аннотированные в банке Prosite.
Занесите в протокол: нашлись ли паттерны, и какие, нашлись ли профили, и какие.
Скопируйте в протокол паттерн (один, если их несколько), в названии которого
есть слово "RIBOSOMAL". Переведите описание семейства, выделяемого этим паттерном.
Укажите характеристики паттерна (сколько последовательностей семейства не находятся
и сколько лишних последовательностей находятся паттерном в банке Swiss-Prot).
В следующих упражнениях Ваша задача создать
паттерн и профиль для подсемейства данного семейства, состоящего из белков
таксона Gammaproteobacteria
- Создайте паттерн для поиска белков подсемейства
Этапы работы:
- Создайте две выборки белков данного семейства: из гаммапротеобактерий
и контрольную из других бактерий. Для этого проведите поиск
паттерном (взятым из Prosite)
по белкам гаммапротеобактерий, представленным в Swiss-Prot.
Внесите в протокол
количество находок; создайте файл с полным списком находок. Из
найденных белков отберите 710 белков из не слишком родственных бактерий
(родовые названия не должны совпадать). Создайте контрольную выборку
из белков других бактерий, включающих паттерн из Prosite.
Рекомендуется взять по одному представителю из таксонов
"Alphaproteobacteria", "Betaproteobacteria", "Actinobacteria",
"Cyanobacteria" и "Firmicutes".
- Создайте выравнивание всех белков (из подсемейства и контрольных)
и импортируйте их в GeneDoc.
- В Genedoc создайте группу из белков подсемейства и выделите цветом консервативные
внутри группы позиции.
- Напишите паттерн и проверьте его на всех белках бактерий из Swiss-Prot.
Сравните список находок исходного (т.е., взятого из Prosite) паттерна
на гаммапротеобактериях и созданного вами паттерна на всех бактериях.
В идеале эти два списка должны совпадать; если имеются существенные
(>10%) отклонения в ту или другую сторону, доработайте паттерн
(для этого полезно будет подровнять к выравниванию по нескольку
последовательностей из излишне найденных и из не найденных вашим
паттерном).
Приведите итоговый паттерн и результаты его работы (то есть сравнение
выдаваемого им списка с "правильным" списком) в протоколе.
- Создайте профиль для поиска белков подсемейства и оцените его
качество
Этапы работы:
- Сохраните подходящий участок выравнивания в виде отдельного файла.
Оставьте в полученном
частичном выравнивании только последовательности подсемейства.
- Средствами пакета pftools создайте профиль (см. указания)
- Прогоните профиль по бактериальным белкам Swiss-Prot.
Подберите порог и укажите показатели детекции подсемейства при
использовании профиля с данным порогом (показателями
являются: число правильных находок, число ложных находок и
число ненайденных элементов подсемейства).
- (*) Дополнительное задание
Средствами MS-Excel создайте
гистограмму распределения весов, выдаваемых при поиске профилем по банку.
Желательно создать также ещё две гистограммы: весов для последовательностей
подсемейства и весов для последовательностей, не принадлежащих подсемейству.