Для построения HMM-профиля было выбрано семейство DEAD/DEAH box helicase (Pfam AC: PF00270). Белки с этим доменом характеризуются наличием консервативного домена
Asp-Glu-Ala-Asp (DEAD) и участуют в различных процессах, связанных с метаболизмом РНК, таких как транскрипция, сплайсинг пре-мРНК, транспорт РНК из ядра в цитоплазму и пр.
Последовательностей в seed и full 181 и 298321 соответственно.
Далее, было выбрано подсемейство с доменной архитектурой PF00270 - PF09373. В нем содержится 47 белков, имеющих, помимо домена DEAD, домен PMBR (Pseudomurein-binding repeat -
домен, специфически связывающийся с псевдомуреином).
Затем, белковые последовательности этого подсемейства были выравнены алгоритмом MAFFT для создания HMM-профиля.

По полученному выравниванию с помощью программы hmmbuild был построен профиль данного подсемейства:
hmmbuild --amino hmmbuild_out2.hmm DEAD.fa
Всего в семействе содержится 593000 белков, что слишком много для того, чтобы InterPro мог сгенерировать их все. Поэтому поиск был проведен по белковым последовательньстям бактерий класса Alphaproteobacteria (всего 27849 последовательностей):
hmmsearch -o hmmsearch5.out hmmbuild_out.hmm pr10bact_seq2.fasta
С помощью python-скрипта был определен оптимальный score:
| Score | TP | FP | FN | TN |
|---|---|---|---|---|
| 299.0 | 37 | 117 | 0 | 96 |