Создадим профиль для подсемейства доменов семейства PF05739 из белков таксона Viridiplantae с доменной архитектурой SNARE+Syntaxin. Для этого были отобраны следующие последовательности, входящие на дереве в одну кладу:
Q7XIE2_ORYSJИз выравния последовательностей выборки предыдущего практикума возьмём выравнивания отобранных последовательностей, сохраним их в отдельный файл в формате stk (золотой стандарт). Получим профиль по выравниванию с помощью следующей команды:
hmmbuild prof.hmm set.stkПолученный файл - здесь.
Для проверки профиля получим последовательности всех белков, содержащих изучаемый домен. Из ранее полученной таблицы возьмём их АС, на сайте Uniprot функцией Retrieve получим fasta-файл с последовательностями. Запустим поиск по профилю командой:
hmmsearch -e 1е-30 -o result.out prof.hmm all_seq.fastaКоманда была запущена дважды, второй раз с e-value 1е-80.
Результат поиска сравнили с золотым стандартом, все последовательности из него присутствуют в первой и второй выдачах. Для обоих файлов рассчитали значения TP, TN, FP, FN, а также чувствительность (R) и избирательность (PPV) (рассчёты в таблице по ссылке). Даже при высоком пороге e-value значение PPV остаётся низким по сравнению с R. Чувствительность высока, а избирательность нет. Профиль получился некачественным, вероятно, из-за того, что выбранные для построения профиля последовательности слишком похожи между собой.