Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2012

Практикум 11: профили

Выделите из семейства Pfam подсемейство вида "домены семейства PFXXXXXX из белков таксона T с доменной архитектурой A". Желательно, чтобы на дереве вашей выборки домены подсемейства образовывали отдельную кладу.

Ваша задача: на основании вашей выборки построить профиль, выделяющий данное подсемейство из всего семейства Pfam, и охарактеризовать качество его работы.

Средства: программы пакета HMMER 2.3.2 (установлен на kodomo).

Последовательность действий

Сначала построение профиля.

  1. Выделите последовательности подсемейства из выравнивания вашей выборки в отдельное выравнивание.
  2. Программой hmm2build постройте профиль по этому выравниванию.

  3. Программой hmm2calibrate откалибруйте профиль.

Теперь проверка профиля. Вам понадобится файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из вашего Pfam-семейства.

  1. Программой hmm2search проведите поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен вашего семейства.

  2. Создайте список белков, включащих домен из подсемейства (то есть белков с заданной архитектурой и из заданного таксона; это будет ваш "Gold standard").
  3. Сравните список находок (при каком-нибудь разумном пороге на E-value) со списком подсемейства. Приведите в отчёте следующие характеристики работы профиля: числа TP, TN, FP, FN; чувствительность (она же Recall или "True positive rate") R = TP/(TP+FN); избирательность (она же точноcть, она же "Positive prediction value") PPV = TP/(TP+FP). Если одно из этих чисел близко к 1, а другое заметно меньше, имеет смысл попробовать поменять порог в соответствующую сторону.

Смысл обозначений TP и прочих см., например, в википедии: http://en.wikipedia.org/wiki/Precision_and_recall . В данном случае "Test outcome" – это результаты hmm2search, а "Condition" – это списки относящихся и не относящихся к подсемейству белков семейства.

Указания

Подсказка ко всем трём программам даётся опцией -h, например:

hmm2build -h

Более подробную информацию можно получить, выполнив команду man hmm2build (аналогично с hmm2calibrate и hmm2search).

Сравнивать списки можно средствами Excel или Python. В любом случае в отчёте, помимо вывода, приведите ссылки на исходные списки и на средства работы с ними (книгу Excel или скрипт).

Дополнительная информация

На kodomo, помимо пакета HMMER 2.3.2, установлен более новый пакет HMMER 3.0. Его программы отличаются отстутсвием двойки в названии (например, hmmbuild вместо hmm2build). К сожалению, hmmbuild не принимает выравнивания в обычных форматах (fasta, aln, msf), поэтому с hmm2build работать проще. Впрочем, Jalview умеет сохранять выравнивания в стокгольмском формате, который hmmbuild понимает, поэтому можете работать с ним (или даже, как дополнительное задание, сравнить результаты работы старого и нового пакетов). Калибровка профиля в HMMER 3.0 не требуется.