Я выбрал домен PF18206 - каталитический домен порфириназы. Домен был обнаружен в белке порфириназе Bacteroides plebeius. Информация о домене:
ID: Porphyrn_cat_1
Белков: 406
Средняя длина домена: 103
Среднее сходство: 26
Число доменных архитектур: 58
Я выбрал подсемейство из 172 белков с доменной архитектурой в котором есть два домена - собственно домен Porphyrn_cat_1 и домен BPA_C, который является С-концевым доменом порфириназы. Ссылка на скачанные последовательности. Ссылка на выравнивание, сделанное в программе JalView.
Далее я выделил в отдельный файл часть выравнивания с выбранной доменной архитектурой, предварительно заново выровняв их.
В этом выравнивании я удалил столбцы с инделями длиной равной или выше 3 и применил remove redundancy. файл
HMM профиль был создан данным набором комманд, где domain_realign_cut.fa - файл с исправленным выравниванием из предыдущего пункта, pr11_full.fasta - последовательности белков с данным доменом выборки full
hmm2build hmmbuild.out domain_realign_cut.fa hmm2calibrate hmmbuild.out hmm2search --cpu=1 hmmbuild.out pr11_full.fasta > hmmsearch.out
Ссылка на HMM профиль. Ссылка на результаты поиска.
С помощью скрипта на python была проанализирована таблица из выдачи hmm. Согласно ней посчитано количество правильно определенных белков с данной доменной структурой. Правильно определенных белков оказалось 30 из 52 определенных всего (58%). Также была построена кривая ROS
Согласно ей в качестве порога определения доменной структуры необходимо взять score = -164.7. Однако при таком пороге количество находок становится равным 21 из 39 (54%). Что дает основания полагать, что полученный HMM профиль малопригоден для нахождения доменной архитектуры.