Практикум 10

HMM-профили и эволюционные домены

В рамках задания случайным образом было выбрано семейство B ДНК полимераз (Pfam name:DNA polymerase family B, Pfan ID: DNA_pol_B, Pfam AC:PF00136). Семейство объединяет центральные каталитические домены ДНК-полимераз типа B, которые отвечают за высокоточную репликацию генома. Этот регион обеспечивает связывание ДНК и нуклеотидов, а также катализирует элонгацию новой цепи ДНК.

Выбор подсемейства проводился по доменной архитектуре: PF13482 - PF00136. Данному подсемейству принадлежит 53 белка. Представляет это подсемейство белок - ДНК-зависимая ДНК-полимераза (Pfam name: DNA-directed DNA polymerase, Pfam ID: Q01PV5, Pfam AC: Q01PV5_SOLUE).

img1
Рисунок 1. Доменная архитектура выбранного подсемейства.

Скачанные последовательности 53 белков подсемейства были выровнены с помощью muscle в Jalview и далее на основе репрезентативного белка были найдены границы искомого домена от 725 до 1079 нуклеотида.

Для построения hmm профиля на основе вырезанного домена была использована следующая команда:

hmmbuild PF00136.hmm domennadh.fa

Далее были скачаны последовательности всех белков семейства B ДНК полимераз и запущен поиск полученным hmm профилем по ним.

hmmsearch --tblout hmmout.txt PF00136.hmm protein-matching-PF00136.fasta

Всего было 28411 находок обнаружено через hmmsearch. Все 53 белка искомого подсемейства были найдены. Минимальный вес для белков подсемейства - 195, максимальный - 394. Наиболее оптимальный вес для порога был взят как 365 - до этого значения вес опускался медленно, после - резко падает на более низкие значение. С таким порогом TP белков - 43, FN - 10, что выглядит приемлемо.

Расшифровка метрик:

Таблица 1. TP, FP, TN, FN для порога 365
True False
Positives 43 (TP) 37 (FP)
Negatives 10 (FN) 28321 (TN)