Для выполнения работы, я выбрала семейство:
Подсемейство было выбрано до домменной архитектуре PF04068 - PF00037, в нем 38 белков(рис 1).
Репрезентативным белком данной архитектуры является Q01512 — белок с 4Fe-4S ферредоксин-подобным доменом, предположительно участвующим в связывании железо-серного кластера.
После скачивания последовательностей белков подсемейства, они были выровнены программой Muscle, и был выделен наш домен PF04068 (рис 2).
Домен был вырезан в файл PF04068.fa и запущена программа построения hmm профиля:
hmmbuild PF04068.hmm PF04068.fa
Скачали последовательности всех белков семейства (protein-matching-PF04068.fasta), и запустили поиск полученным профилем по этим белкам:
hmmsearch --tblout output_hmmsearch.txt PF04068.hmm protein-matching-PF04068.fasta
Для начала, с помощью таблички из выдачи hmmsearch создадим файл, где будут только имена белков и их веса:
grep -v '^#' output_hmmsearch.txt | tr -s ' ' | cut -d' ' -f1,6 > scores.txt
Также из файла со всеми белками подсемейства достанем их названия и тоже запишем в отдельный файл
grep '^>' PF04068.fa | sed 's/^>//' | awk '{print $1}' >domain.txt
Далее полученные файлы анализировала в скрипте на python.
Было выяснено, что всего hmmsearch обнаружил 6050 находки, и все 38 белков подсемейства было найдено.
Минимальный score белков подсемейства — 34.8, а максимальный — 69.0.
Для поиска порога будем использовать следующие метрики:
Оптимальный порог выбирался не только по максимальному F1, но и с учётом числа TP, чтобы TP был не меньше 20. Это важно, потому что слишком строгий порог может давать мало ложноположительных находок, но при этом терять большую часть настоящего подсемейства, а это грустно. При переборе разных порогов, был найден оптимальный: 57.7
По итогом поиска порога хочется сказать, что профиль оказался далеко не специфичным для выбранной архитектуры: при мягких порогах число FP было большим, а при строгих порогах резко возрастало число FN. Возможно это связано с тем, что подсемейство выделялось по полной доменной архитектуре, тогда как HMM-профиль строился только по одному домену PF04068.
Для порога 57.7 получились следующие параметры (таблица 1).
| True | False | |
|---|---|---|
| Positives | 30 | 4037 |
| Negatives | 1975 | 8 |