Практикум 9

Для практикума выбрал белки, содержащие домен Flexi_CP (PF00286), входящий в состав капсида некоторых вирусов, например, вируса мозаики папайи. Далее перечисление фактов)


A. Число белков с доменом в выборках seed, full и Uniprot: 8, 109 и 4542.
Длина профиля HMM домена = 138.

B. Второй домен - Flexi_CP_N(PF08358), выбранная доменная архитектура: Flexi_CP_N, Flexi_CP.
Число белков с выбранной архитектурой = 40, для построения HMM профиля взял 25 посл-тей.
Использованные команды: 1.hmm2build profile my_align.fa (строим HMM профиль). 2.hmm2calibrate profile (калибруем). 3. hmmsearch --cpu=1 profile full_seq.fasta &>hmm_search.txt hmm2search --cpu=1 (сравниваем посл-ти с HMM профилем).
Длина профиля HMM, созданного мной, равна 317.
Лучший порог предсказывания принадлежности белка к выбранной доменной структуре равен 129.5 (подсчитан c помощью f1 score).

Разные графики

Рис1. Гистограмма весов посл-тей выборки full, разными цветами показаны посл-ти с разными доменными архитектурами (True, т.е. посл-ти с выбранной структурой)
Рис.2 ROC кривая.
Рис.3 Распределение длин белков с выбранным доменом + их boxplot.

Внимание! Красивые интерактивные графики есть в notebook-е, написанном для выполнения практикума (см. Supplementary materials)


Supplementary materials

Notebook, написанный для практикума
Составленная по результатам практикума таблица таблица
Белки из выборки full
Выравнивания белков с выбранной доменной архитектурой после ревизии и до ревизии
HMM профиль после калибровки
Output HMMsearch