Практикум 8. ROC-кривая.

Файл Excel
Задание 1. Определите целевое семейство белков. Составьте список белков семейства из `SwissProt`
Для выполнения задания был выбран домен RF1 белка P57852. Соответствующий семейству идентификатор PFAM: PF00472
Этот домен свойственен факторам высвобождения пептидной цепи и проявляет в белке за пептидил-тРНК гидролазную активность.
В базе данных Uniprot был выполнен поиск по данному домену, среди организмов, относящихся к таксону Proteobacteria со следующим запросом:
database:(type:pfam id:PF00471) taxonomy:proteobacteria AND reviewed:yes
Было найдено 375 последовательностей. Все они принадлежали к одной доменной архитектурой Pfam и были занесены в таблицу в файле Excel.

Задание 2. Постройте и откалибруйте профиль для целевого семейства
Было получено выравнивание с помощью команды
muscle -in pr8_out.fasta -out mus_align.fasta
Редактирование выравнивания проводилось вручную. Результат:

Построение и калибровка профиля для целевого семейства были произведены с помощью команд:
hmm2build profile.out mus_align.fasta
hmm2calibrate profile.out

Полученный профиль: profile.out

Задание 3. Получите результаты поиска по профилю на множестве последовательностей SwissProt
С помощью команды, приведенной ниже был произведен поиск среди записей банка данных SwissProt.
hmm2search --domE 1000 --domT -50 profile.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > swp_find.out
Были найдены последовательности, соответствующие построенному профилю. Параметр -domE обозначает порог E-value для доменов в 1000, --domT - такой же порог для веса со значением -50. Получили 781 подходящих и 962 неподходящих последовательностей.

Данные выдачи записаны во втором листе книги Excel.

Задание 4. Выберите порог нормализованного веса для находок по профилю
Для находок, представленных в таблице найденных доменов была построена гистограмма весов этих находок.
С помощью гистограммы были предположены несколько пороговых значений (лист 3.2). Затем для разных пороговых значений были вычеслены значения Sensitivity и Specificity по формулам:

Был построен график зависимости этих двух параметров, ROC-кривая:

Значение выбранного порога - 88,6.
Для него мы имеем оптимальное соотношение величин Sensitivity и Specificity - Specificity имеет значение 1, Sencitivity ограничивает точность выборки примерно 40 процентами. Данные для порога приведены в таблице:
88,6 Истинные классы(1/0)
Предсказанные
классы (1/0)
314 0
41 586
Sensitivity:
0,36
Specificity:
1
Precision:
1

Precision порога и профиля: был посчитан процент верных находок относительно всех находок по профилю и тот же процент, но в новой выборке после порога.
Precision порога Precision профиля
1 0,39

Полученный профиль достаточно эффективен для определения к принадлежности семейству белка со скором выше порога. Тем не менее, 39% находок по базе это относительно немного. Выставленный порог, распознающий 60% верных находок также уменьшает эффективность профиля.