Выбор подсемейства. Работа осуществлялась на основе результатов, полученных в предыдущем практикуме. Выбор подсемейства осуществлялся по нескольким параметрам: оно является кладой на дереве, содержит представителей 1 подтаксона. Было выбрано несколько представителей подтаксона Euryarchaeota. На рис. 1 представлено изображение дерева с отметкой выбранных представителей. На рис. 2 представлено изображение выравнивания с выделенным подсемейством в раскраске ClustalX (консервативность: 30). Выравнивание неплохое - процент абсолютно/полу- консервативных колонок, поэтому можно работать с этой группой дальше. Выравнивание данных последовательностей было сохранено в отдельном файле.
Рис. 1 - Дерево с отмеченным подсемейством
Рис. 2 - Выравнивание последовательностей в раскраске Clustalx
(1) hmm2build profile.out pr13_align.fasta
(2) hmm2calibrate profile.out (3) hmm2search profile.out Uniprot.fasta > search.out |
---|
В данном задании необходимо было построить ROC-кривую, гистограмму весов находок
и предложить порог для нормализованного веса профиля.
На рисунке 3 представлена гистограмма весов находок, построенная с помощью Excel
на основе полученных данных (search.out).
Для построения кривой и оценки порога были посчитаны несколько величин:
TP - последовательности содержат искомый домен, находятся выше порога;
FP - последовательности не содержат искомый домен, находятся выше порога;
FN - последовательности содержат искомый домен, находятся ниже порога;
TN - последовательности не содержат искомый домен, находятся ниже порога.
Также важно учитывать чувствительноть и специфичность профиля:
Специфичность (SPC) - TN/(TN+FP);
Чувствительность (TPR) - TP/(TP+FN).
Искомая ROC-кривая - это график зависимости TPR от 1-SPC.
Наибольшая достоверность возникает тогда, когда TPR и SPC - максимальны.
Это достигается при TPR = 1 и SPC = 0.9.
Порог в этом случае принимает значение 139.2.
Как можно заметить по результатам, также представленным в таблице 1 - данный профиль
неплохо позволяет выделять подсемейство.
Ссылка на итоговую таблицу с результатами.
Рис. 3 - Гистограмма весов находок
На самом деле | Принадлежит подсемейству | Не принадлежит | Сумма |
Выше порога по профилю | 9 | 65 | 74 |
Ниже порога | 0 | 593 | 593 |
Сумма | 9 | 658 | 667 |