В качестве объекта исследования были выбраны белки, содержащие домен ORF11CD3 (PF10549) из базы данных Pfam. Домен приблизительно удовлетворяет указанным критериям:
Табл. 1. Характеристики домена
ID
Accession
Type
Seed
Full
ORF11CD3
PF10549
Domain
6
110
Uniprot
Average length
Average %id
Average coverage
HMM profile length
1255
52.5
35
29.79
53
Для построения HMM профиля была выбрана архитектура KilA-N, ORF11CD3. В Pfam содержится 30 последовательностей с данной архитектурой. Домен KilA-N (PF04383) является консервативным ДНК-связывающим доменом.
Из гистограммы длин белков видно, что для белков с доменом ORF11CD3 характера длинны 150-200 aa
Рис. 1. Гистограмма длин белков с выбранным доменом, оранжевым показаны белки с выбранной доменной архитектурой.
Построение выравнивания
Скачаны полные последовательности выборки full в формате fasta. (full.fasta)
Последовательности белков с выбранной 2-доменной архитектурой выделены в отдельный файл 2-d_arch.fasta
В MEGA с помощью алгоритма Muscle с параметрами по умолчанию построено выравнивание данным последовательностей. Из него удалены 2 последовательности со вставками внутри доменов, а также участки до начала первого и после конца второго домена, после чего был заново запущен алгоритм Muscle. Полученное выравнивание сохранено в файле 2-d_arch_al.fas
Схожие последовательности были удалены с помощью следующей команды skipredundant 2-d_arch_al.fas -threshold 100 Полученый файл, в котором осталось только 16 последовательностей от исходных 30, доступен по ссылке 2-d_arch_al_red.fasta
Далее к полученному файлу еще раз был применен алгоритм Muscle. В результате был получен файл 2-d_arch_al_red_end.fas
Сам HMM профиль доступен по ссылке hmm, его длинна составляет 180.
Анализ HMM профиля
Для анализа, HMM профиля с была построена таблица, имеющая следующие столбцы:
AC - ac белка
KilA-N_ORF11CD3_architecture - 1, если он содержит выбранную доменную архитектуру, 0, если нет
In_aligment - 1, если он входит в выравнивание для построения hmm профиля, 0, если нет
score - вес по hmm профилю
E-value - E-value по hmm профилю
1-Specificity - ложноположительный уровень, если вес данного белка выбрать как порог
Sensitivity - чувствиельность, если вес данного белка выбрать как порог
F1 - F1-мера, если вес данного белка выбрать как порог
По данным в этой таблице были построенны несколько графиков
Рис. 2. Score decrease.
Рис. 3. ROC-кривая.
Рис. 4. F1-мера.
Вывод: hmm профиль работает очень хорошо, об этом говорят и заметное падение на графике Score decrease, и предельно выпуклая ROC-кривая, и большие значения F1-меры (максимум = 0,9836). Однако, представляется пробленым определение лучшего порога веса, из-за крайне выпуклой ROC-кривой и плато на графике F1-меры. Можно лишь сказать что он находится где-то в области 0-300.