Pfam и HMM

В качестве объекта исследования были выбраны белки, содержащие домен ORF11CD3 (PF10549) из базы данных Pfam. Домен приблизительно удовлетворяет указанным критериям:

Табл. 1. Характеристики домена
ID Accession TypeSeed Full
ORF11CD3 PF10549 Domain 6 110
Uniprot Average length Average %id Average coverage HMM profile length
1255 52.5 35 29.79 53

Для построения HMM профиля была выбрана архитектура KilA-N, ORF11CD3. В Pfam содержится 30 последовательностей с данной архитектурой. Домен KilA-N (PF04383) является консервативным ДНК-связывающим доменом.

Из гистограммы длин белков видно, что для белков с доменом ORF11CD3 характера длинны 150-200 aa

ДНК

Рис. 1. Гистограмма длин белков с выбранным доменом, оранжевым показаны белки с выбранной доменной архитектурой.

Построение выравнивания

  1. Скачаны полные последовательности выборки full в формате fasta. (full.fasta)
  2. Последовательности белков с выбранной 2-доменной архитектурой выделены в отдельный файл 2-d_arch.fasta
  3. В MEGA с помощью алгоритма Muscle с параметрами по умолчанию построено выравнивание данным последовательностей. Из него удалены 2 последовательности со вставками внутри доменов, а также участки до начала первого и после конца второго домена, после чего был заново запущен алгоритм Muscle. Полученное выравнивание сохранено в файле 2-d_arch_al.fas
  4. Схожие последовательности были удалены с помощью следующей команды
    skipredundant 2-d_arch_al.fas -threshold 100
    Полученый файл, в котором осталось только 16 последовательностей от исходных 30, доступен по ссылке 2-d_arch_al_red.fasta
  5. Далее к полученному файлу еще раз был применен алгоритм Muscle. В результате был получен файл 2-d_arch_al_red_end.fas

Построение HMM профиля

hmm2build hmm 2-d_arch_al_red_end.fas
hmm2calibrate hmm
hmm2search --cpu 1 -E 1 hmm full.fasta > results.txt

На выходе был получен файл results.txt.

Сам HMM профиль доступен по ссылке hmm, его длинна составляет 180.

Анализ HMM профиля

Для анализа, HMM профиля с была построена таблица, имеющая следующие столбцы:

  1. AC - ac белка
  2. KilA-N_ORF11CD3_architecture - 1, если он содержит выбранную доменную архитектуру, 0, если нет
  3. In_aligment - 1, если он входит в выравнивание для построения hmm профиля, 0, если нет
  4. score - вес по hmm профилю
  5. E-value - E-value по hmm профилю
  6. 1-Specificity - ложноположительный уровень, если вес данного белка выбрать как порог
  7. Sensitivity - чувствиельность, если вес данного белка выбрать как порог
  8. F1 - F1-мера, если вес данного белка выбрать как порог

По данным в этой таблице были построенны несколько графиков

ДНК

Рис. 2. Score decrease.

ДНК

Рис. 3. ROC-кривая.

ДНК

Рис. 4. F1-мера.

Вывод: hmm профиль работает очень хорошо, об этом говорят и заметное падение на графике Score decrease, и предельно выпуклая ROC-кривая, и большие значения F1-меры (максимум = 0,9836). Однако, представляется пробленым определение лучшего порога веса, из-за крайне выпуклой ROC-кривой и плато на графике F1-меры. Можно лишь сказать что он находится где-то в области 0-300.