Из базы данных Pfam было решено взять домен DarA_C (PF18789). Для данного домена 28 белков в seed и 136 белков в full, а длина профиля HMM равна 67 аминокислот. А также доменную архитектуру с AC R9MJG9_9FIRM, белков с данной архитектурой 8. Сама архитектура имеет следующий вид: zf-CHC2, ArdcN, LPD28, DarA_C, YodL, DUF4316. Затем я получил fasta-файл всех последовательностей выбранного домена, из которого затем извлек список AC, а также из раздела Architectures я взял список AC белков из выбранной архитектуры.
Для выравнивания белков с выбранной архитектурой я ручную скопировал последовательности из общего файла, затем алгоритмом muscle я осуществил выравнивание, после анализа было решено оставить все в выравнивании и перейти к следующему шагу. Далее я воспользовался следующими командами: hmm2build profile arch_aligned.fasta, hmm2calibrate profile и hmmsearch --cpu=1 profile PF18789.fasta > hmmsearch.log. В итоге я получил следующие файлы:
Затем по итогам обработки данных был получен следующий график. Также я вычислил значение порогового веса с наибольшим значением F1 и получил следующее значение: 2736.0. этим в целом и объясняется форма кривой на графике: по результатам видно, что происходит резкий скачек весов от примерно 1320 до 2730.