HMM-профиль семейства белков

Выбор домена и доменной архитектуры
Выравнивание белков с двухдоменной архитектурой

Из базы данных Pfam я скопировал информацию по всем записям раздела Browse в файл, и при помощи скрипта отфильтровал записи о доменах, соответствующих требованиям, в отдельный файл.

Я выбрал домен Sugarporin N (AC PF11471, 10 белков в seed, 105 - в full, длина профиля HMM 31 аминокислота) и двухдоменную архитектуру с Porin 8 (AC архитектуры T0P7H4_PHOTE, АС порина 8 PF16966, порядок доменов: Sugarporin N - Porin 8, белков с данной архитектурой 26).

Последовательности всех белков с доменом Sugarporin N лежат в fasta-файле; из данного файла я получил список АС. Список АС белков, содержащих двухдоменную структуру с Porin 8, я взял из раздела Architectures.

Для создания выравнивания я объединил последовательности белков, содержащих выбранную архитектуру, в файл при помощи скрипта. Выравнивание я выполнил в программе Mega X алгоритмом muscle, получив на выходе следующий файл.

После удаления части последовательностей и частей белков до начала первого домена выравнивание приобрело следующий вид.

HMMsearch
Анализ профиля

При помощи команды

hmm2build profile arch_aligned_rev.fas
я построил HMM-профиль доменной архитектуры и откалибровал его командой
hmm2calibrate profile
Наконец, при помощи команды
hmmsearch --cpu=1 profile full.fasta
я произвёл поиск доменной архитектуры по базе данных белков из ранее полученного файла, получив следующий лог-файл. На основе него я сделал таблицу по белкам Длина профиля HMM двухдоменной архитектуры 439 аминокислот

При помощи скрипта я построил ROC-кривую:

и вычислил значение порогового веса с наибольшим значением F1; оно получилось 758. Сильно прямоугольную форму кривой можно объяснить тем, что в результатах HMMsearch наблюдается очень резкий скачок весов как раз в районе 400-700