Занятие 12. Пакет Pftools

Срок выполнения заданий — 10 мая 2011 г. Ваша рабочая директория: H:\Term4\Practice12. Помимо отчёта на сайте (который должен быть читаемым и сам по себе), будет проверяться наличие в рабочей директории файлов (кроме больших файлов, содержащих "банки последовательностей" – их лучше уничтожить после окончания работы, чтобы не выйти из квоты на использование диска).

В этом последнем занятии семестра работаем с пакетом Pftools, разработанным в Expasy, в Швейцарии, и используемым для создания профилей для банка Prosite. Для вас есть две возможности: 1) работать с тем же выравниванием, что при выполнении предыдущего задания (то есть выравниванием рибосомальных белков некоторого таксона бактерий); 2) выбрать собственное семейство белковых доменов (например, вы могли иметь дело с такими доменами при выполнении курсовой работы). Во втором случае опишите в отчёте кратко, что это за семейство, описано ли это семейство или какое-либо его над/под-семейство в банках Pfam и Prosite; в последнем случае – как именно описано (паттерном, профилем, и тем, и другим?)

Ваша задача: построить (с помощью пакета Pftools) профиль для своего семейства и описать его характеристики (ROC-кривую, а также селективность и чувствительность при некотором пороге) при поиске им в последовательностях бактерий из Swiss-Prot. Замечание: если вы работаете со своим семейством, то вместо бактерий можно брать эукариот (Eukaryota), архей (Archaea) или вирусы (Viruses); в принципе, можно и весь Swiss-Prot, только поиск будет занимать больше времени.

Этапы работы

  1. Прочитайте о требуемых программах: pfw, pfmake и pfsearch, пользуясь man.
  2. Приготовьте входной файл в формате msf.
  3. Внимание: pftools (в отличие от программ пакета EMBOSS) не умеет работать с файлами, имеющими конец строки, принятый в Windows! Поэтому, если вы создавали msf-файл в GeneDoc, то поменяйте признаки конца строки на UNIX-вые. Это можно сделать командой noreturn пакета EMBOSS или программой tr, входящей в Linux (чтобы узнать подробности, пользуйтесь, соответственно tfm и man).

  4. Рассчитайте веса строк вашего выравнивания программой pfw
  5. Чем полученный файл отличается от исходного?

  6. Создайте профиль программой pfmake.
  7. Используйте взвешенное выравнивание и матрицу
    /usr/share/pftools23/blosum62.cmp
    

  8. Проверьте профиль.
  9. Для этого рекомендуется открыть его в редакторе. На этом этапе возможна ручная корректировка профиля в известных вам функционально значимых позициях.

  10. Подготовьте файл с последовательностями в fasta-формате, в которых будет проводиться поиск.
  11. Например, если вы будете искать во всех бактериальных последовательностях, то это можно сделать командой
    seqret sw-org:bacteria bacteria.fasta
    
    Внимание: pftools не есть часть EMBOSS и USA не понимает! Программам pftools нужны файлы определённых форматов (в данном случае удобнее всего fasta).

  12. (*) Нормируйте профиль
  13. Этот этап разрешается опустить
    Процедура нормировки меняет формулу пересчёта обычной суммы весов в так называемый нормированный вес, что облегчает установку порога для данного профиля. Для нормировки прежде всего нужно сгенерировать случайный банк того же размера, что ваш. Это делается программой shuffleseq.
    shuffleseq sw-org:bacteria shuffled.fasta
    
    Теперь нужно провести "фальшивый поиск", чтобы получить типичные значения веса профиля на случайных последовательностях:
    pfsearch -C0.0 -f my.prf shuffled.fasta | sort -n > scores.txt
    
    и затем собственно нормировку профиля программой pfscale:
    pfscale scores.txt my.prf > scaled.prf
    
    Сравните содержимое файлов с исходным и нормированным профилями – что изменилось?

  14. Поиск по профилю
  15. Если профиль находится в файле my.prf, а банк – в файле bacteria.fasta, то рекомендуется запустить поиск так:
    pfsearch -C1.0 -f my.prf bacteria.fasta > my.pfsearch
    
    Здесь -f показывает, что банк имеет формат fasta, а -C1.0 (именно так, без пробела и с обязательной десятичной точкой!) – что мы просим выдать все находки с нормализованным весом более 1 (этот порог заведомо заниженный; если находок очень много, имеет смысл его повысить).

    Если же вы проводили нормировку профиля (предыдущий пункт), то сразу имеет смысл поставить порог, равный 6, то есть -C6.0. Считается, что для нормализованного профиля оптимальный порог должен быть около 8,5.

  16. Анализ результатов
  17. Тут всё более или менее аналогично предыдущему занятию.

Дополнительные задания

  1. Программа prophet
  2. Попробуйте освоить программу prophet пакета EMBOSS, которая сравнивает профили типов "Gribskov" и "Henikoff", созданные программой prophecy, с заданными последовательностями. Отчёт предполагает как методические указания по использованию этой программы, так и сравнение результатов с profit и/или pftools на одном-двух примерах.

  3. Сравните характеристики поиска одним из профилей с таковыми программы BLASTP
  4. В качестве "запроса" для BLASTP возьмите один из белков семейства.