Pfam и HMM

В качестве объекта исследования были выбраны белки, содержащие домен ORF11CD3 (PF10549) из базы данных Pfam. Домен приблизительно удовлетворяет указанным критериям:

Табл. 1. Характеристики домена

ID	Accession	Type	Seed	Full
ORF11CD3	PF10549	Domain	6	110
Uniprot	Average length	Average %id	Average coverage	HMM profile length
1255	52.5	35	29.79	53

Для построения HMM профиля была выбрана архитектура KilA-N, ORF11CD3. В Pfam содержится 30 последовательностей с данной архитектурой. Домен KilA-N (PF04383) является консервативным ДНК-связывающим доменом.

Из гистограммы длин белков видно, что для белков с доменом ORF11CD3 характера длинны 150-200 aa

ДНК — **Рис. 1.** Гистограмма длин белков с выбранным доменом, оранжевым показаны белки с выбранной доменной архитектурой.

Построение выравнивания

Скачаны полные последовательности выборки full в формате fasta. (full.fasta)
Последовательности белков с выбранной 2-доменной архитектурой выделены в отдельный файл 2-d_arch.fasta
В MEGA с помощью алгоритма Muscle с параметрами по умолчанию построено выравнивание данным последовательностей. Из него удалены 2 последовательности со вставками внутри доменов, а также участки до начала первого и после конца второго домена, после чего был заново запущен алгоритм Muscle. Полученное выравнивание сохранено в файле 2-d_arch_al.fas
Схожие последовательности были удалены с помощью следующей команды
skipredundant 2-d_arch_al.fas -threshold 100
Полученый файл, в котором осталось только 16 последовательностей от исходных 30, доступен по ссылке 2-d_arch_al_red.fasta
Далее к полученному файлу еще раз был применен алгоритм Muscle. В результате был получен файл 2-d_arch_al_red_end.fas

Построение HMM профиля

hmm2build hmm 2-d_arch_al_red_end.fas
hmm2calibrate hmm
hmm2search --cpu 1 -E 1 hmm full.fasta > results.txt

На выходе был получен файл results.txt.

Сам HMM профиль доступен по ссылке hmm, его длинна составляет 180.

Анализ HMM профиля

Для анализа, HMM профиля с была построена таблица, имеющая следующие столбцы:

AC - ac белка
KilA-N_ORF11CD3_architecture - 1, если он содержит выбранную доменную архитектуру, 0, если нет
In_aligment - 1, если он входит в выравнивание для построения hmm профиля, 0, если нет
score - вес по hmm профилю
E-value - E-value по hmm профилю
1-Specificity - ложноположительный уровень, если вес данного белка выбрать как порог
Sensitivity - чувствиельность, если вес данного белка выбрать как порог
F1 - F1-мера, если вес данного белка выбрать как порог

По данным в этой таблице были построенны несколько графиков

Вывод: hmm профиль работает очень хорошо, об этом говорят и заметное падение на графике Score decrease, и предельно выпуклая ROC-кривая, и большие значения F1-меры (максимум = 0,9836). Однако, представляется пробленым определение лучшего порога веса, из-за крайне выпуклой ROC-кривой и плато на графике F1-меры. Можно лишь сказать что он находится где-то в области 0-300.