Отбор необходимого домена и подготовка данных

Из каталога PFAM был отобран домен NACHT_sigma, соответствующий всем необходимым харатеристикам. Домен обладает средней консервативностью и встречается в нуклеозидтрифосфатазах, однако его точная функция неизвестна.

В качестве двудоменной архитектуры для построения профиля была выбрана G9MXQ8_HYPVG - удобная для анализа структура, состоящая из доменов NACHT_sigma и SesA, разделенных неконсервативным мостиком в ~35 аминокислот.

После были скачаны все последовательности, содержащие NACHT_sigma, в фаста формате. С помощью скрипта из них были отобраны все 66 последовательностей архитектуры G9MXQ8_HYPVG. После была проведена ручная чистка и фильтрация на предмет подозрительных последовательностей. Полученное выравнивание обрезано с концов.

Создание HMM профиля и проверка им последовательностей

По выравниванию был построен первичный HMM профиль при помощи команды:

hmm2build HMM HMM_virav.fa

Далее он был откалиброван (добавлена строка с коэффициентами нормализации весов):

hmm2calibrate HMM

Затем выполнен поиск по всем последовательностям, содержащим домен, выставлен порог E-value в 0.1:

hmm2search -E 0.1 --cpu 1 HMM PF17106_full_length_sequences.fasta > HMM_result.txt

Выдача записана в HMM_result.txt

По данным выдачи в Excel составлена итоговая таблица с анализом работы профиля.

Ступенька score

Ступенька score заметна на последовательностях 68-70, однако является относительно пологой, что свидетельствует об отсутствии резкого разделения последовательностей на однозначно сходные профилю и однозначно ему противоречащие.

График точности оценки

Точность оценки стремится к единице при уменьшении количества ложноположительных и ложноотрицательных результатов. В нашем случае ее график достигает максимума на последовательности 70 и равняется 0,968.

ROC-кривая

ROC-кривая является отношением чувствительности к специфичности и служит для установления оптимального порога при отстутствии ясной ступеньки score. Максимальная площадь под графиком соответствует последовательности №68 и ее score в 125,7. Это значение score было выбрано мной как оптимальный порог оценки и отмечено в таблице.

График показателя F1 оценки

График показателя F1 оценки является гармоническим средним точности и чувствительности и, также как и точность, стремится к единице при уменьшении количества ложноположительных и ложноотрицательных результатов. В нашем случае достигает максимума в значении 0,947 на последовательности №68, подтверждая оценку ROC-кривой.