Профили.
1.Построение профиля подсемейства и проверка его работы.
На основе результатов, полученных в предыдущем практикуме, был осуществлен выбор подсемейства. Основными параметрами при выборе было условие, что подсемейство является кладой на дереве и содержит представителей одного класса. На рисунке 1 представлено дерево с выбранным подсемейством. Выборка в итоге состоит из белков Двудольных с первой доменной архитектурой.
Рис.1. Выбранное подсемейство.
Рис.2. Выравнивание выборки.
Выравнивание последовательностей выборки было сохранено как проект Jalview.
Далее было необходимо построить профиль с помощью пакета HMMER. Сначала построили профиль с помощью hmm2build и команды
hmm2build profile1 pr13seq.fastaзатем была произведена калибровка профиля - hmm2calibrate
hmm2calibrate profile1На выходе получили откалиброванный файл со всеми белками Uniprot, включающими домен В3. Далее был проведен поиск, с использованием hmm2search
hmm2search profile1 PF02362.fasta > pr13out2. Выбор порога для профиля.
Всего нашлось 6376 последовательностей, которые были проанализированs с помощью Excel. Ссылка на таблицу.
Результаты были проанализированны с помощью ROC кривой и гистограммы.
Параметры для построения кривой: TP - последовательности содержат искомый домен, находятся выше порога; FP - последовательности не содержат искомый домен, находятся выше порога; FN - последовательности содержат искомый домен, находятся ниже порога; TN - последовательности не содержат искомый домен, находятся ниже порога. Также важно учитывать чувствительноть и специфичность профиля: Специфичность (SE) - TN/(TN+FP); Чувствительность (TP) - TP/(TP+FN). Искомая ROC-кривая - это график зависимости TP от 1-SE. Наибольшая достоверность возникает тогда, когда TP и SE - максимальны (в нашем случае - 1 и 0,983665777 соответственно). В нашем случае это соотношение достигается при значении E-value = 3.3E-75, что также говорит о том, что можно с высокой достоверностью выделить данное подсемейство используя модель профиля.
Рис.3. Диаграмма с ROC кривой.
Рис.4. Гистограмма весов находок.
Таблица с результатами.
На самом деле
принадлежит подсемейству
Не принадлежит
Сумма
Выше порога по профилю
8
104
112
Ниже порога
0
6264
6264
сумма
8
6368
6376