1.Построение профиля подсемейства и проверка его работы.

На основе результатов, полученных в предыдущем практикуме, был осуществлен выбор подсемейства. Основными параметрами при выборе было условие, что подсемейство является кладой на дереве и содержит представителей одного класса. На рисунке 1 представлено дерево с выбранным подсемейством. Выборка в итоге состоит из белков Двудольных с первой доменной архитектурой.

Рис.1. Выбранное подсемейство.

Рис.2. Выравнивание выборки.

Выравнивание последовательностей выборки было сохранено как проект Jalview.

Далее было необходимо построить профиль с помощью пакета HMMER. Сначала построили профиль с помощью hmm2build и команды

 hmm2build profile1 pr13seq.fasta 

затем была произведена калибровка профиля - hmm2calibrate

hmm2calibrate profile1

На выходе получили откалиброванный файл со всеми белками Uniprot, включающими домен В3. Далее был проведен поиск, с использованием hmm2search

hmm2search profile1 PF02362.fasta > pr13out

Полученный файл.

2. Выбор порога для профиля.

Всего нашлось 6376 последовательностей, которые были проанализированs с помощью Excel. Ссылка на таблицу.

Результаты были проанализированны с помощью ROC кривой и гистограммы.

Параметры для построения кривой: TP - последовательности содержат искомый домен, находятся выше порога; FP - последовательности не содержат искомый домен, находятся выше порога; FN - последовательности содержат искомый домен, находятся ниже порога; TN - последовательности не содержат искомый домен, находятся ниже порога. Также важно учитывать чувствительноть и специфичность профиля: Специфичность (SE) - TN/(TN+FP); Чувствительность (TP) - TP/(TP+FN). Искомая ROC-кривая - это график зависимости TP от 1-SE. Наибольшая достоверность возникает тогда, когда TP и SE - максимальны (в нашем случае - 1 и 0,983665777 соответственно). В нашем случае это соотношение достигается при значении E-value = 3.3E-75, что также говорит о том, что можно с высокой достоверностью выделить данное подсемейство используя модель профиля.

Рис.3. Диаграмма с ROC кривой.

Рис.4. Гистограмма весов находок.

Таблица с результатами.

На самом деле

принадлежит подсемейству

Не принадлежит

Сумма

Выше порога по профилю

8

104

112

Ниже порога

0

6264

6264

сумма

8

6368

6376