Для выбора домена, подходящего по требованиям был использован Excel. В итоге был выбран домен ORF11CD3 (PF10549).Характеристики домена:
Для домена известны 7 архитектуры. Для изучения была выбрана двухдоменная архитектура, состоящая из KilA-N, ORF11CD3. Она встречается в 30 из 53 последовательностей.
Был скачен файл со всеми последовательностями домена, который можно увидеть здесь. Далее был составлен список всех АС с нужной нам доменной архитектурой и их последовательностями, результат можно увидеть здесь здесь.
Полученный файл был выровнен в Jailview, также удалены фрагменты до первого домена и после второго, на взгляд лишние последовательности, и с большим процентом идентичности, в итоге работа велась с 17 последовательностями. Результат можно увидеть здесь.
Для построения НММ-профиля был использован пакет HMMER и выполнены следующие команды:
hmm2build HMM aln.fa
hmm2calibrate HMM
hmm2search --cpu=1 -E 1 HMM full.fasta> results.txt
В итоге был получен НММ-профиль двухдоменой структуры длиной 179, который можно найти здесь, и файл с результатами поиска профиля по набору белков с выбранным доменом, его можно найти здесь.
Для анализа профиля была построена таблица со следующими важными для анализа столбцами:
Таблицу можно посмотреть здесь
По данным в таблице были построены следующие графики:
Видно заметное падение на графике весов, и определенно предельно выпуклая ROC-кривая, а также большие значения F1-меры (максимум = 0,9836),что говорит о том, что HMM профиль работает хорошо. Но, из-за крайне выпуклой ROC-кривой и плато на графике F1-меры сложно определить лучший порог веса. Но находится от примерно в области от 0 до 300.