Задание 1. Определите целевое семейство белков. Составьте список белков семейства из `SwissProt`
Для выполнения задания был выбран домен RF1 белка P57852. Соответствующий семейству идентификатор PFAM: PF00472
Этот домен свойственен факторам высвобождения пептидной цепи и проявляет в белке за пептидил-тРНК гидролазную активность.
В базе данных Uniprot был выполнен поиск по данному домену, среди организмов, относящихся к таксону Proteobacteria со следующим запросом:
database:(type:pfam id:PF00471) taxonomy:proteobacteria AND reviewed:yes
Было найдено 375 последовательностей. Все они принадлежали к одной доменной архитектурой Pfam и были занесены в таблицу в файле Excel.
Задание 2. Постройте и откалибруйте профиль для целевого семейства
Было получено выравнивание с помощью команды
muscle -in pr8_out.fasta -out mus_align.fasta
Редактирование выравнивания проводилось вручную. Результат:
Построение и калибровка профиля для целевого семейства были произведены с помощью команд:
hmm2build profile.out mus_align.fasta
hmm2calibrate profile.out
Полученный профиль: profile.out
Задание 3. Получите результаты поиска по профилю на множестве последовательностей SwissProt
С помощью команды, приведенной ниже был произведен поиск среди записей банка данных SwissProt.
hmm2search --domE 1000 --domT -50 profile.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > swp_find.out
Были найдены последовательности, соответствующие построенному профилю. Параметр -domE обозначает порог E-value для доменов в 1000, --domT - такой же порог для веса со значением -50. Получили 781 подходящих и 962 неподходящих последовательностей.
Данные выдачи записаны во втором листе книги Excel.
Задание 4. Выберите порог нормализованного веса для находок по профилю
Для находок, представленных в таблице найденных доменов была построена гистограмма весов этих находок.
С помощью гистограммы были предположены несколько пороговых значений (лист 3.2). Затем для разных пороговых значений были вычеслены значения Sensitivity и Specificity по формулам:
Был построен график зависимости этих двух параметров, ROC-кривая:
Значение выбранного порога - 88,6.
Для него мы имеем оптимальное соотношение величин Sensitivity и Specificity - Specificity имеет значение 1, Sencitivity ограничивает точность выборки примерно 40 процентами. Данные для порога приведены в таблице:
88,6 | Истинные классы(1/0) | |
Предсказанные классы (1/0) |
314 | 0 |
41 | 586 | |
Sensitivity: 0,36 |
Specificity: 1 |
Precision: 1 |
Precision порога и профиля: был посчитан процент верных находок относительно всех находок по профилю и тот же процент, но в новой выборке после порога.
Precision порога | Precision профиля |
1 | 0,39 |
Полученный профиль достаточно эффективен для определения к принадлежности семейству белка со скором выше порога. Тем не менее, 39% находок по базе это относительно немного. Выставленный порог, распознающий 60% верных находок также уменьшает эффективность профиля.