Для построения HMM-профиля был выбран домен Albumin I chain a (AC PF16720). В выборках seed, full и Uniprot этот домен содержат 1, 98 и 294 белок соответственно. Длина его HMM-профиля из Pfam составляет 130 аминокислот. Также была взята двухдоменная архитектура, содержащаяся в 45 белках. В ней перед исследуемым доменом идёт домен Albumin_I (AC PF08027, AC архитектуры – V7ANF6_PHAVU). В Rfam указана ещё одна архитектура – из одного домена. Две архитектуры хорошо иллюстрируются гистограммой длин белков, содержащих выбранный домен: вероятно, им соответствуют две моды на графике (Рис. 1).
В Pfam были скачаны последовательности всех белков с исследуемым доменом. Из них были извлечены AC этих белков (скрипт extract_ac.py). Также из раздела "architectures" Pfam были получены AC белков, имеющих выбранную архитектуру. По этим AC были извлечены последовательности данных белков (скрипт arch_seqs.py)
Полученные для одной доменной архитектуры последовательности были выровнены с помощью muscle в программе Jalview, плохо выровнявшиеся последовательности и участки за пределами доменов удалены: arch_algmnt.fa (до ревизии: arch_algmnt0.fa).
Далее по полученному выравниванию был построен HMM-профиль двухдоменной архитектуры:
hmm2build hmm_profile arch_algmnt.fa
Далее профиль откалибровали (отнормировали веса):
hmm2calibrate hmm_profile
Далее был произведён поиск по hmm-профилю во всех содержащих рассматриваемый домен последовательностях c фильтрацией находок по E-value:
hmm2search -E 0.01 --cpu 1 hmm_profile full_seqs.fasta > res.txt
После обработки полученного на выходе файла была получена следующая таблица, отражающая точность предсказания двухдоменной архитектуры: table.tsv. Длина профиля HMM двухдоменной архитектуры оказалась равной 110 аминокислотам.
По данным полученной выше таблицы построено распределение весов и ROC-кривая (Рис. 2 и 3 соответственно). Убывание весов находок оказалось достаточно плавным, но на ROC-кривой есть скачок: на ROC-кривой переход от белков без выбранной доменной архитектуры к обладающим её выражен заметнее. По ней же можно определить пороговый вес, как вес, при котором разница между ROC-кривой и прямой, соединяющей её крайние точки, будет максимальным – получается около 120.