Профили

Создание профиля

Создадим профиль для подсемейства доменов семейства PF05739 из белков таксона Viridiplantae с доменной архитектурой SNARE+Syntaxin. Для этого были отобраны следующие последовательности, входящие на дереве в одну кладу:

Q7XIE2_ORYSJ
B6TDM3_MAIZE
Q9ZSD5_TOBAC
SY111_ARATH
Q9SML5_CAPAN
Q84L57_ANTMA

Из выравния последовательностей выборки предыдущего практикума возьмём выравнивания отобранных последовательностей, сохраним их в отдельный файл в формате stk (золотой стандарт). Получим профиль по выравниванию с помощью следующей команды:

hmmbuild prof.hmm set.stk

Полученный файл - здесь.

Проверка профиля

Для проверки профиля получим последовательности всех белков, содержащих изучаемый домен. Из ранее полученной таблицы возьмём их АС, на сайте Uniprot функцией Retrieve получим fasta-файл с последовательностями. Запустим поиск по профилю командой:

hmmsearch -e 1е-30 -o result.out prof.hmm all_seq.fasta

Команда была запущена дважды, второй раз с e-value 1е-80.

Результаты

Результат поиска сравнили с золотым стандартом, все последовательности из него присутствуют в первой и второй выдачах. Для обоих файлов рассчитали значения TP, TN, FP, FN, а также чувствительность (R) и избирательность (PPV) (рассчёты в таблице по ссылке). Даже при высоком пороге e-value значение PPV остаётся низким по сравнению с R. Чувствительность высока, а избирательность нет. Профиль получился некачественным, вероятно, из-за того, что выбранные для построения профиля последовательности слишком похожи между собой.