ПОСТРОЕНИЕ ROC-КРИВОЙ
Задание 1. Определите целевое семейство белков. Составьте список белков семейства из `SwissProt`
К сожалению, домен, который я описывала в Практикуме 7, при поиске в UniProt выдал всего 23 резултата. Поэтому, для выполнения
заданий Практикума 8 я выбрала новый домен, AC в Pfam - PF09383 (NIL domain).
Этот домен находится в С-концевой области белков-транспортеров АВС, участвующих в транспорте Д-метионина, а также на ряде ферредоксинподобных белков.
Этот домен, скорее всего, будет действовать в качестве домена связывания субстрата.
Таким образом, поиск проводился по PfamAC - PF09383. Выбранное целевое семейство - (CLASS) Gammaproteobacteria
(database:(type:pfam id:PF09383) taxonomy:enterobacterales AND reviewed:yes). Всего было обнаружено 33 находки.
Все они имеют одинаковую доменную архитектуру, представленную на Рис.1.
Рис.1 ABC_tran (PF00005) - ДНК-связывающий домен ABC транспортеров, NIL (PF09383).
Задание 2. Постройте и откалибруйте профиль для целевого семейства
Для построения выравнивания в JalView (Рис.2) были выбраны все 33 последовательности. Они были примерно одной длины и нетрудно заметить,
что все последовательности очень похожи дрг на друга, пусть и выделяются три отдельных блока.
Выравнивание доступно для скачивания по
ссылке.
Рис.2 Выравнивание, построенное в JalView
Для построения и калибровки профиля использовались команды:
hmm2build -g prof.out pr8.fasta
hmm2calibrate prof.out
Профиль доступен для скачивания по
ссылке.
Задание 3. Получите результаты поиска по профилю на множестве последовательностей SwissProt
С помощью команды
hmm2search --domE 1000 --domT -800 prof.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > SwPr.txt
В базе данных SwissProt были найдены соответствующие профилю последовательности. Полученные данные были добавлены в Exel-таблицу,
доступную для скачивания по
ссылке.
Задание 4. Выберите порог нормализованного веса для находок по профилю
Была построена гистограмма весов находок (Рис.3, ось X - номер находки, ось Y - вес находки) и
ROC-кривая (Рис.4, ось X - (1 - Specificity), ось Y - Sensitivity). Судя по Рис.3 и полученным данным (На Листе4 в Exel),
порогом можно считать 100 и более (Предположительно, score = 115,5). На гистограмме при этом значении видна ярко выраженная
"ступенька", и кроме того, это значение обладает высоким уровнем Specificity (48%) и Sensitivity (100%).
Рис.3 Гистограмма весов находок
Рис.4 ROC-кривая
|
Positive (SwissProt) |
Negative (SwissProt) |
Positive (predicted) |
33 |
230 |
Negative (predicted) |
0 |
214 |
Sensitivity: 1 |
Specificity: 0,48 |
Precision: 0,13 |
Мне кажется, что подобный метод недостаточно специфичен для определения принадлежности домена к определенной таксономической группе.
Найденные в SwissProt находки обладали искомой доменной архитектурой, но не все.
Возможно, с повышением уровня таксона, уровень специфичности повышается, но на данном этапе нельзя достоверно судить.
На Главную страницу
На страницу Семестра