Профили

Задание 1. Построение профиля подсемейства и проверка его работы

Выбор подсемейства. Работа осуществлялась на основе результатов, полученных в предыдущем практикуме. Выбор подсемейства осуществлялся по нескольким параметрам: оно является кладой на дереве, содержит представителей 1 подтаксона. Было выбрано несколько представителей подтаксона Euryarchaeota. На рис. 1 представлено изображение дерева с отметкой выбранных представителей. На рис. 2 представлено изображение выравнивания с выделенным подсемейством в раскраске ClustalX (консервативность: 30). Выравнивание неплохое - процент абсолютно/полу- консервативных колонок, поэтому можно работать с этой группой дальше. Выравнивание данных последовательностей было сохранено в отдельном файле.

Рис. 1 - Дерево с отмеченным подсемейством

Рис. 2 - Выравнивание последовательностей в раскраске Clustalx


Построение и калибровка профиля. Для построения профиля был использован пакет HMMER. Перед использованием программа пакета был проведен запуск с параметром -h, который выводит парсер. Сначала был построен профиль с помощью hmm2build и команды (1), затем была произведена калибровка профиля - hmm2calibrate и команда (2). Был получен fasta-файл со всеми белками Uniprot, включающими мой домен. По данному списку белков был проведен поиск, с использованием hmm2search, откалиброванного профиля и команды (3). Был получен файл search.out (ссылка). Ссылка на файл с профилем.

(1) hmm2build profile.out pr13_align.fasta
(2) hmm2calibrate profile.out
(3) hmm2search profile.out Uniprot.fasta > search.out

Задание 2. Обоснование выбора порога для профиля

В данном задании необходимо было построить ROC-кривую, гистограмму весов находок и предложить порог для нормализованного веса профиля. На рисунке 3 представлена гистограмма весов находок, построенная с помощью Excel на основе полученных данных (search.out). Для построения кривой и оценки порога были посчитаны несколько величин: TP - последовательности содержат искомый домен, находятся выше порога; FP - последовательности не содержат искомый домен, находятся выше порога; FN - последовательности содержат искомый домен, находятся ниже порога; TN - последовательности не содержат искомый домен, находятся ниже порога. Также важно учитывать чувствительноть и специфичность профиля: Специфичность (SPC) - TN/(TN+FP); Чувствительность (TPR) - TP/(TP+FN). Искомая ROC-кривая - это график зависимости TPR от 1-SPC. Наибольшая достоверность возникает тогда, когда TPR и SPC - максимальны. Это достигается при TPR = 1 и SPC = 0.9. Порог в этом случае принимает значение 139.2. Как можно заметить по результатам, также представленным в таблице 1 - данный профиль неплохо позволяет выделять подсемейство. Ссылка на итоговую таблицу с результатами.

Рис. 3 - Гистограмма весов находок


Рис. 4 - ROC-кривая. По горизонтали - 1-SPC, по вертикали - TPR.



Таблица 1. Результаты при выбранном пороге

На самом деле Принадлежит подсемейству Не принадлежит Сумма
Выше порога по профилю 9 65 74
Ниже порога 0 593 593
Сумма 9 658 667