Практикум 8

Построение профиля и поиск подходящих последовательностей

В этом првктикуме подбирался профиль, который успешно опознавал бы последовательности рибосомального белка RL1
протеобактерий. Для построения профиля я взял 7 последовательностей белка различных протеобактерий (seqs_for_HMM.fasta), и применил
к ним команды hmm2build и hmm2calibrate. Получившийся профиль доступен поссылке profile.out.
Далее я искал в БД "Swissprot" удовлетворяющие моему профилю последовательности командой hmm2search с пороговым E-value 10.
Все находки представлены в таблице на втором листе.

Анализ результатов поиска


На ниже представленном рисунке представлена гистограма весов всех находок. Зелёным помечена область, последовательности
в которой прнадлежат только протеобактериям. Как видно из графика, большого перепада в весе находок между протеобактериями
и другими бактериями не наблюдается.

Следующий график отображает ROC-кривую находок.AUC приведённой ROC-кривой построенного профиля имеет достаточно большой,
что указывает на хорошую предсказательную способность профиля. При граничном E-value 1*e-130 (вес выравнивания более 450)
профиль имеет высокую чувствительность и специфичность.


>=450TrueFalse Positive3757 Negative51442 Sensitivity -- Specificity -- Precision -- 0.98 Accuracy -- 0.93

© Максим Григорьян, 2016