Построение и характеристика профиля
Сперва мне нужно было правильно выбрать подсемейство из выравнивания последовательностей домена из предыдущего задания. Я старалась удовлетворить следующим требованиям:
- Подсемейство является кладой на дереве
- По доменной архитектуре, таксономической принадлежности или по диагностическим позициям или признакам в последовательности можно однозначно определить, принадлежит ли какой-либо белок с рассматриваемым доменом Usher выделенному подсемейству или нет
Этим правилам более-менее соответствует подсемейство из последовательностей с кратким обозначением BA. Отмечено серым цветом на изображении:
Выбранные последовательности я сохранила отдельно в файле subfamily.fasta. По ссылке доступно изображение выравнивания последовательностей подсемейства с окраской по типу ClustalX с порогом консервации 20%
Для построения профиля я использовала пакет HMMER, который установлен на сервере kodomo. Сначала я построила профиль программой hmm2build:
hmm2build profile.out subfamily.fasta
Затем я откалибровала профиль программой hmm2calibrate:
hmm2calibrate profile.out
Далее я скачала с сайта UniProt последовательности всех белков, включающих домен Usher, в один файл uniprot.fasta. Провела поиск по всем белкам программой hmm2search, используя откалиброванный профиль:
hmm2search profile.out uniprot.fasta > output.txt
В итоге я получила файл output.txt, содержащий все находки.
Таблицу с результатами я открыла в программе Excel, после небольших преобразований скриптом. Всего было обнаружено 1088 , среди которых встретились все представители подсемейства (выделены желтым цветом в таблице subfamily.xlsx лист findings). По данным я составила гистограмму весов находок (лист histogram в таблице subfamily.xlsx), ее изображение приведено ниже.
Далее я вычислила показатели чувствительности (SE) и специфичности (SP) и построила ROC-кривую (лист ROC в таблице subfamily.xlsx). Ее изображение приведено ниже.
В качестве порога для нормализованного веса профиля я предлагаю значения:
- E-value = 0
- Score = 1083
На основании графика ROC-кривой, я вычислила максимальную разность (SE + SP - 1) между показателями чувствительности и 1 - специфичности. Она оказалась равной 0,993. При этом значении:
- SE = 1
- SP = 0,007
График ROC-кривой выглядит практически идеально. Мне кажется, что построенный профиль будет эффективен для выделения подсемейства. При выбранном пороге результаты поиска будут как в таблице 1.
Таблица 1. Результаты поиска при выбранном пороге | |||
На самом деле | Принадлежит подсемейству | Не принадлежит подсемейству | Сумма |
Выше порога по профилю |
18 | 7 | 25 |
Ниже порога по профилю |
0 | 1063 | 1063 |
Сумма | 18 | 1070 | 1088 |