Занятие 12. Пакет Pftools
Срок выполнения заданий 10 мая 2011 г.
Ваша рабочая директория: H:\Term4\Practice12.
Помимо отчёта на сайте (который должен быть читаемым и сам по себе),
будет проверяться наличие в рабочей директории файлов (кроме больших файлов,
содержащих "банки последовательностей" – их лучше уничтожить после окончания работы,
чтобы не выйти из квоты на использование диска).
В этом последнем занятии семестра работаем с пакетом Pftools, разработанным
в Expasy, в Швейцарии, и используемым для создания профилей для банка Prosite.
Для вас есть две возможности: 1) работать с тем же выравниванием, что при
выполнении предыдущего задания (то есть выравниванием рибосомальных белков
некоторого таксона бактерий); 2) выбрать собственное семейство белковых доменов
(например, вы могли иметь дело с такими доменами при выполнении курсовой работы).
Во втором случае опишите в отчёте кратко, что это за семейство, описано ли это семейство
или какое-либо его над/под-семейство в банках Pfam и Prosite; в последнем случае –
как именно описано (паттерном, профилем, и тем, и другим?)
Ваша задача: построить (с помощью пакета Pftools) профиль для своего семейства
и описать его характеристики (ROC-кривую, а также селективность и чувствительность
при некотором пороге) при поиске им в последовательностях бактерий
из Swiss-Prot. Замечание: если вы работаете со своим семейством,
то вместо бактерий
можно брать эукариот (Eukaryota), архей (Archaea) или вирусы (Viruses);
в принципе, можно и весь Swiss-Prot, только поиск будет занимать больше времени.
Этапы работы
- Прочитайте о требуемых программах: pfw, pfmake и pfsearch, пользуясь man.
- Приготовьте входной файл в формате msf.
Внимание: pftools
(в отличие от программ пакета EMBOSS) не умеет работать с файлами, имеющими
конец строки, принятый в Windows! Поэтому, если вы создавали msf-файл в GeneDoc,
то поменяйте признаки конца строки на UNIX-вые. Это можно сделать командой
noreturn пакета EMBOSS или программой tr, входящей в Linux
(чтобы узнать подробности, пользуйтесь, соответственно tfm и man).
- Рассчитайте веса строк вашего выравнивания программой pfw
Чем полученный файл отличается от исходного?
- Создайте профиль программой pfmake.
Используйте взвешенное выравнивание и матрицу
/usr/share/pftools23/blosum62.cmp
- Проверьте профиль.
Для этого рекомендуется открыть его в редакторе.
На этом этапе возможна ручная корректировка профиля в известных вам
функционально значимых позициях.
- Подготовьте файл с последовательностями в fasta-формате,
в которых будет проводиться поиск.
Например, если вы будете искать во всех бактериальных последовательностях,
то это можно сделать командой
seqret sw-org:bacteria bacteria.fasta
Внимание: pftools не есть часть EMBOSS и USA не понимает! Программам pftools
нужны файлы определённых форматов (в данном случае удобнее всего fasta).
- (*) Нормируйте профиль
Этот этап разрешается опустить
Процедура нормировки меняет формулу пересчёта
обычной суммы весов в так называемый нормированный вес,
что облегчает установку порога для данного профиля.
Для нормировки прежде всего нужно сгенерировать случайный банк того же
размера, что ваш. Это делается программой shuffleseq.
shuffleseq sw-org:bacteria shuffled.fasta
Теперь нужно провести "фальшивый поиск", чтобы получить типичные
значения веса профиля на случайных последовательностях:
pfsearch -C0.0 -f my.prf shuffled.fasta | sort -n > scores.txt
и затем собственно нормировку профиля программой pfscale:
pfscale scores.txt my.prf > scaled.prf
Сравните содержимое файлов с исходным и нормированным профилями – что изменилось?
- Поиск по профилю
Если профиль находится в файле my.prf, а банк – в файле bacteria.fasta,
то рекомендуется запустить поиск так:
pfsearch -C1.0 -f my.prf bacteria.fasta > my.pfsearch
Здесь -f показывает, что банк имеет формат fasta, а -C1.0
(именно так, без пробела и с обязательной десятичной точкой!) –
что мы просим выдать все находки с нормализованным весом более 1
(этот порог заведомо заниженный; если находок очень много, имеет смысл его повысить).
Если же вы проводили нормировку профиля (предыдущий пункт), то сразу
имеет смысл поставить порог, равный 6, то есть -C6.0.
Считается, что для нормализованного профиля оптимальный порог должен быть около 8,5.
- Анализ результатов
Тут всё более или менее аналогично предыдущему занятию.
Дополнительные задания
- Программа prophet
Попробуйте освоить программу prophet пакета EMBOSS,
которая сравнивает профили типов "Gribskov" и "Henikoff",
созданные программой prophecy, с заданными последовательностями.
Отчёт предполагает как методические указания по использованию этой программы,
так и сравнение результатов с profit и/или pftools
на одном-двух примерах.
- Сравните характеристики поиска одним из профилей с таковыми программы
BLASTP
В качестве "запроса" для BLASTP возьмите один из белков семейства.