Вернуться на страницу семестров

Профили


     Задание 1. Построение профиля.

1) По-первых открыл выравнивание из предыдушего практикума, выбрал подтаксон BACTERIA с доменной архитектурой 1 (Pyr_redox_2, Pyr_redox, Reductase_C, Rieske) и вырезал всё остальное. Эти последовательности и есть мой "золотой стандарт". Сохранил в формате стокгольм. Ниже сам файл.

Ссылка на файл в формате стокгольм.

2) Далее командой:

hmmbuild align.hmm align.stk

получил файл ниже:

Ссылка на файл в формате hmm.

3) C помощью Exell-таблицы из предыдущего практикума получил все последовательности семейства PF14759 (Reductase_С) подтаксона прокариот - Uniprot -> retrieve. Командой:

hmmsearch -o search.out align.hmm uniprot.fasta

получил файл ниже:

Ссылка на файл out.

Профиль в калибровке не нуждается, использована версия HMMER3


     Задание 2. Оценка параметров профиля.

4) Теперь нужно сравнить "золотой стандарт" c этим списком, а также привести ряд параметров. Все это представлено ниже:

TP = 15
TN = 354
FP = 285
FN = 0
R (чувствительность) = 1
PPV (избирательность) = 0.04065

Ссылка на таблицу Excel со всеми операциями по вычислению параметров профиля

Вывод: поскольку чувствительность = 1, а избирательность столь низка (-> 0). Работа профиля по выделению подсемейства из семейства проведена удовлетворительно. Однако, если повысить E-value до 8e-27 (100 первых находок), избирательность можно повысить до 0.13, это число уже не так стремится к нулю, хотя это значение всё равно достаточно маленькое для того, чтобы говорить, что поиск по профилю был отличным.