Вернуться на страницу семестров
Профили
Задание 1. Построение профиля.
1) По-первых открыл выравнивание из предыдушего практикума, выбрал подтаксон BACTERIA с доменной архитектурой 1 (Pyr_redox_2, Pyr_redox, Reductase_C, Rieske) и вырезал всё остальное. Эти последовательности и есть мой "золотой стандарт". Сохранил в формате стокгольм. Ниже сам файл.
Ссылка на файл в формате стокгольм.
2) Далее командой:
hmmbuild align.hmm align.stk
получил файл ниже:
Ссылка на файл в формате hmm.
3) C помощью Exell-таблицы из предыдущего практикума получил все последовательности семейства PF14759 (Reductase_С) подтаксона прокариот - Uniprot -> retrieve. Командой:
hmmsearch -o search.out align.hmm uniprot.fasta
получил файл ниже:
Ссылка на файл out.
Профиль в калибровке не нуждается, использована версия HMMER3
Задание 2. Оценка параметров профиля.
4) Теперь нужно сравнить "золотой стандарт" c этим списком, а также привести ряд параметров. Все это представлено ниже:
TP = 15
TN = 354
FP = 285
FN = 0
R (чувствительность) = 1
PPV (избирательность) = 0.04065
Ссылка на таблицу Excel со всеми операциями по вычислению параметров профиля
Вывод: поскольку чувствительность = 1, а избирательность столь низка (-> 0). Работа профиля по выделению подсемейства из семейства проведена удовлетворительно. Однако, если повысить E-value до 8e-27 (100 первых находок), избирательность можно повысить до 0.13, это число уже не так стремится к нулю, хотя это значение всё равно достаточно маленькое для того, чтобы говорить, что поиск по профилю был отличным.