Учебная страница курса биоинформатики,
год поступления 2023

Практикум 11. Домашнее задание

Задание обязательно для тех, кто не сделал 18 апреля задание в классе или сделал его неудовлетворительно. Те, у кого задание в классе зачтено, могут при желании сделать это задание для получения дополнительных баллов. Дедлайн (сразу жёсткий) — среда 21 мая.

Выберите какое-нибудь семейство Pfam и в нём подсемейство. Критерии выбора подсемейства:
- По доменной архитектуре (рекомендуется)
- По таксономии
- Как кладу на дереве, построенном по выравниванию seed
- Ещё как-нибудь
Постройте профиль HMM по последовательностям доменов (не полных белков) подсемейства. Используйте программу hmmbuild.
Скачайте последовательности полных белков с доменом из выбранного семейства. Запустите поиск своим профилем (программа hmmsearch) по этим белкам.
Определите оптимальный порог на вес находки, который лучше всего выделяет подсемейство на фоне семейства

В директорию ~/term4/pr11 положите файлы:

Выравнивание последовательностей доменов подсемейства
Профиль HMM
Последовательности белков семейства (т.е., область поиска)
Результат поиска (выходной файл hmmsearch)

На странице с отчётом (со ссылкой со страницы семестра) напишите:

Что за семейство выбрано (AC, ID, Name), кратко о функции белков, которые содержат домены этого семейства, сколько последовательностей в seed и в full
По какому признаку выделено подсемейство, сколько последовательностей в выравнивании, использованном для создания профиля
Какой порог на вес сочтён вами оптимальным для выделения подсемейства и почему
Численные характеристики выделения подсемейства профилем: TP, FP, TN, FN (лучше в виде таблицы 2x2)

Напоминаем, что:

TP — True positives, число находок, принадлежащих подсемейству с весом выше порога
FP — False positives, число находок не из подсемейства, но в весом выше порога
FN — False negatives, число находок из подсемейства, но в весом ниже порога
TN — True negatives, число находок не из подсемейства и с весом ниже порога

Сумма всех четырёх чисел должна быть равна общему числу белков в области поиска (число находок в выходном файле может оказаться меньше, так как белки с очень низким весом могут туда не попасть)

2023/4/task11 (последним исправлял пользователь sas 2025-05-08 09:31:22)

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2023

Практикум 11. Домашнее задание

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2023

Практикум 11. Домашнее задание

Учебная страница курса биоинформатики,
год поступления 2023