Практикум 11. Домашнее задание
Задание обязательно для тех, кто не сделал 18 апреля задание в классе или сделал его неудовлетворительно. Те, у кого задание в классе зачтено, могут при желании сделать это задание для получения дополнительных баллов. Дедлайн (сразу жёсткий) — среда 21 мая.
- Выберите какое-нибудь семейство Pfam и в нём подсемейство. Критерии выбора подсемейства:
- По доменной архитектуре (рекомендуется)
- По таксономии
- Как кладу на дереве, построенном по выравниванию seed
- Ещё как-нибудь
- Постройте профиль HMM по последовательностям доменов (не полных белков) подсемейства. Используйте программу hmmbuild.
- Скачайте последовательности полных белков с доменом из выбранного семейства. Запустите поиск своим профилем (программа hmmsearch) по этим белкам.
- Определите оптимальный порог на вес находки, который лучше всего выделяет подсемейство на фоне семейства
В директорию ~/term4/pr11 положите файлы:
- Выравнивание последовательностей доменов подсемейства
- Профиль HMM
- Последовательности белков семейства (т.е., область поиска)
- Результат поиска (выходной файл hmmsearch)
На странице с отчётом (со ссылкой со страницы семестра) напишите:
- Что за семейство выбрано (AC, ID, Name), кратко о функции белков, которые содержат домены этого семейства, сколько последовательностей в seed и в full
- По какому признаку выделено подсемейство, сколько последовательностей в выравнивании, использованном для создания профиля
- Какой порог на вес сочтён вами оптимальным для выделения подсемейства и почему
- Численные характеристики выделения подсемейства профилем: TP, FP, TN, FN (лучше в виде таблицы 2x2)
Напоминаем, что:
TP — True positives, число находок, принадлежащих подсемейству с весом выше порога
FP — False positives, число находок не из подсемейства, но в весом выше порога
FN — False negatives, число находок из подсемейства, но в весом ниже порога
TN — True negatives, число находок не из подсемейства и с весом ниже порога
Сумма всех четырёх чисел должна быть равна общему числу белков в области поиска (число находок в выходном файле может оказаться меньше, так как белки с очень низким весом могут туда не попасть)