ROC-кривая.

Задание 1. Определите целевое семейство белков. Составьте список белков семейства из 'SwissProt'.

Строить ROC-кривую было решено по выборке белков, характерных для отряда Приматы и содержащих домен PF08516.
Запрос в поисковой строке Uniprot: taxonomy:primates database:(type:pfam id:PF08516) AND reviewed:yes
Результат поиска: 24 последовательности.
Отсюда был выбран 21 белок, соответствующий одной выбранной доменной архитектуре.

Задание 2. Постройте и откалибруйте профиль для целевого семейства.

Полученные аминокислотные последовательности были выровнены с помощью программы JalView. Выравнивание получилось очень кривое - с малым количеством консервативных позиций и с морем гэпов. Те фрагменты, что резали глаз сильнее всего, были удалены вручную.


Рис.1. Фрагмент выравнивания. Сам проект выравнивания: aligned.jvp

Построение профиля:

  • hmm2build new_prof.out fixed.mfa - построение профиля
  • hmm2calibrate new_prof.out - калибровка профиля

Итог: профиль new_prof.out
Были найдены последовательности из БД Swissprot, соответствующие полученному профилю.

Задание 3. Получите результаты поиска по профилю на множестве последовательностей SwissProt.

  • hmm2search --domE 1000 --domT -50 new_prof.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > find.out

Итог: файл find.out. Здесь содержится нужный нам список результатов поиска по полученному HMM профилю. Отсюда были взяты данные для будущей таблицы результатов.

Задание 4. Выберите порог нормализованного веса для находок по профилю.

Для разных выбранных порогов были вычислены коэффициенты Sensitivity (True Positive/ (True Positive + False negative)) и Specificity (True Negative/(False Positive + True Negative)). По величинам Sensitivity и 1-Specificity построена ROC кривая (Рис.2).


Рис.2. ROC-кривая

При построении ROC-кривой был выбран порог Score = 800. По построенной гистограмме (Рис.3) можно заметить, что существует ступенька, соответствующая данному значению. Значит, порог выбран правильно.


Рис.3. Гистограмма весов находок

Рабочая таблица с данными, необходимыми для полного построения ROC-кривой, лежат в файле ADAM_primates.xlsx


© Svetlana Kozyulina 2018