Из выравнивания последовательностей домена, полученного в предыдущем практикуме, были удалены все последовательности, кроме принадлежащих таксону Ecdysozoa и входящих в архитектуру 2 (Peptidase_S8, P_proprotein, GF_recep_IV).
Далее для построения профиля использовались программы пакета HMMER3
Профиль по выравниванию был построен программой hmmbuild:
hmmbuild prof1 prof_al.stk
Так как все белки из таблицы, с которой велась работа в прошлом практикуме, содержат домен P_proprotein, для работы были получены АС из этой таблицы. Для них с помощью Retrieve в Uniprot были получены последовательности.
Профиль по данным последовательностям был построен программой hmmsearch:
hmmsearch -o search prof1 seq_retr.fasta
Был получен файл search.
Далее был проведен подбор наилучшего порога E-value. Результаты представлены в таблице 1. Excel-таблицу можно скачать по ссылке. В качестве оптимального E-value я считаю, необходимо выбрать 1E-60, так как в данном случае сохраняется 100% чувствительность, а сильно повысить избирательность при повышении этого порога не получается. Возможно, если чувствительность не сильно важна, то стоит выбрать E-value около 1E-74.
Порог E-value | Чувствительность | Избирательность |
1E-06 | 1 | 0.011 |
1E-40 | 1 | 0.078 |
1E-60 | 1 | 0.088 |
1E-70 | 0.916 | 0.087 |
1E-74 | 0.687 | 0.224 |