В рамках задания случайным образом было выбрано семейство B ДНК полимераз (Pfam name:DNA polymerase family B, Pfan ID: DNA_pol_B, Pfam AC:PF00136). Семейство объединяет центральные каталитические домены ДНК-полимераз типа B, которые отвечают за высокоточную репликацию генома. Этот регион обеспечивает связывание ДНК и нуклеотидов, а также катализирует элонгацию новой цепи ДНК.
Выбор подсемейства проводился по доменной архитектуре: PF13482 - PF00136. Данному подсемейству принадлежит 53 белка. Представляет это подсемейство белок - ДНК-зависимая ДНК-полимераза (Pfam name: DNA-directed DNA polymerase, Pfam ID: Q01PV5, Pfam AC: Q01PV5_SOLUE).
Скачанные последовательности 53 белков подсемейства были выровнены с помощью muscle в Jalview и далее на основе репрезентативного белка были найдены границы искомого домена от 725 до 1079 нуклеотида.
Для построения hmm профиля на основе вырезанного домена была использована следующая команда:
hmmbuild PF00136.hmm domennadh.fa
Далее были скачаны последовательности всех белков семейства B ДНК полимераз и запущен поиск полученным hmm профилем по ним.
hmmsearch --tblout hmmout.txt PF00136.hmm protein-matching-PF00136.fasta
Всего было 28411 находок обнаружено через hmmsearch. Все 53 белка искомого подсемейства были найдены. Минимальный вес для белков подсемейства - 195, максимальный - 394. Наиболее оптимальный вес для порога был взят как 365 - до этого значения вес опускался медленно, после - резко падает на более низкие значение. С таким порогом TP белков - 43, FN - 10, что выглядит приемлемо.
Расшифровка метрик:
| True | False | |
|---|---|---|
| Positives | 43 (TP) | 37 (FP) |
| Negatives | 10 (FN) | 28321 (TN) |