Практикум 9. Домены и профили.
Был выбран домен PF01687, который представляет собой рибофлавинкиназу, катализирующую реакцию АТФ с рибофлавином до АДФ и флавимононуклеотида. Выбранная доменная архитектура - HAD_2, Flavokinase (307 последовательностей). По запросу в UniProt "pf13419 pf01687" было найдено 454 белка (output). Была построена гистограмма длин белков (Рис. 1).
Длины белков были ограничены от 384 до 386 (62 последовательности неродственных организмов - fasta).
В ходе построения и обработки выравнивания (удаление наименее похожих белков и обрезание концов выравнивания) осталось 52 белка. Выравнивание: muscle -in proteins.fasta -out proteins_aln.fasta
Создание HMM профиля:
hmm2build hmm.hmm proteins_aln.fasta
hmm2calibrate hmm.hmm
Проверка профиля. Белки с доменом PF01687 (fasta - 40673 последовательности). Поиск по профилю:
hmm2search --cpu=1 -E 0.01 hmm.hmm proteins_all.fasta > result.hmm
По весам в выдаче hmm2search был построен график (Рис. 2).
За пороговое значение принимается 378.9 (Рис. 3), была построена ROC-кривая (Рис. 4).
Таким образом, можно утверждать, что профиль был построен верно.