Из каталога PFAM был отобран домен NACHT_sigma, соответствующий всем необходимым харатеристикам. Домен обладает средней консервативностью и встречается в нуклеозидтрифосфатазах, однако его точная функция неизвестна.
В качестве двудоменной архитектуры для построения профиля была выбрана G9MXQ8_HYPVG - удобная для анализа структура, состоящая из доменов NACHT_sigma и SesA, разделенных неконсервативным мостиком в ~35 аминокислот.
После были скачаны все последовательности, содержащие NACHT_sigma, в фаста формате. С помощью скрипта из них были отобраны все 66 последовательностей архитектуры G9MXQ8_HYPVG. После была проведена ручная чистка и фильтрация на предмет подозрительных последовательностей. Полученное выравнивание обрезано с концов.
По выравниванию был построен первичный HMM профиль при помощи команды:
hmm2build HMM HMM_virav.fa
Далее он был откалиброван (добавлена строка с коэффициентами нормализации весов):
hmm2calibrate HMM
Затем выполнен поиск по всем последовательностям, содержащим домен, выставлен порог E-value в 0.1:
hmm2search -E 0.1 --cpu 1 HMM PF17106_full_length_sequences.fasta > HMM_result.txt
Выдача записана в HMM_result.txt
По данным выдачи в Excel составлена итоговая таблица с анализом работы профиля.
Ступенька score заметна на последовательностях 68-70, однако является относительно пологой, что свидетельствует об отсутствии резкого разделения последовательностей на однозначно сходные профилю и однозначно ему противоречащие.
Точность оценки стремится к единице при уменьшении количества ложноположительных и ложноотрицательных результатов. В нашем случае ее график достигает максимума на последовательности 70 и равняется 0,968.
ROC-кривая является отношением чувствительности к специфичности и служит для установления оптимального порога при отстутствии ясной ступеньки score. Максимальная площадь под графиком соответствует последовательности №68 и ее score в 125,7. Это значение score было выбрано мной как оптимальный порог оценки и отмечено в таблице.
График показателя F1 оценки является гармоническим средним точности и чувствительности и, также как и точность, стремится к единице при уменьшении количества ложноположительных и ложноотрицательных результатов. В нашем случае достигает максимума в значении 0,947 на последовательности №68, подтверждая оценку ROC-кривой.