Учебный сайт Орлова Артёма

Практикум 9. Домены и профили.

Был выбран домен PF01687, который представляет собой рибофлавинкиназу, катализирующую реакцию АТФ с рибофлавином до АДФ и флавимононуклеотида. Выбранная доменная архитектура - HAD_2, Flavokinase (307 последовательностей). По запросу в UniProt "pf13419 pf01687" было найдено 454 белка (output). Была построена гистограмма длин белков (Рис. 1).

Рисунок 1.Гистограмма длин белков.

Длины белков были ограничены от 384 до 386 (62 последовательности неродственных организмов - fasta).

В ходе построения и обработки выравнивания (удаление наименее похожих белков и обрезание концов выравнивания) осталось 52 белка. Выравнивание: muscle -in proteins.fasta -out proteins_aln.fasta

Создание HMM профиля:

hmm2build hmm.hmm proteins_aln.fasta
hmm2calibrate hmm.hmm

Проверка профиля. Белки с доменом PF01687 (fasta - 40673 последовательности). Поиск по профилю:

hmm2search --cpu=1 -E 0.01 hmm.hmm proteins_all.fasta > result.hmm

По весам в выдаче hmm2search был построен график (Рис. 2).

Рисунок 2.

За пороговое значение принимается 378.9 (Рис. 3), была построена ROC-кривая (Рис. 4).

Рисунок 3.

Рисунок 4. ROC-кривая.

Таким образом, можно утверждать, что профиль был построен верно.