Для выполнения задания выбрал домен SesB, который встречается в белках грибов, участвующих в клеточной гибели (Табл.1). Длина HMM-профиля равна 28. Таким образом, домен оптимален по характеристикам, приступим к выполнению задания.
Так как будем осуществлять поиск по профилю, скачаем последовательности full. Для данного домена известно 32 архитектуры. В одной из них структура DUF676, Ses_B, то есть двухдоменная организация, где выбранному домену предшествует ещё один с неизвестной функцией. В нём оказалось немного меньше двадцати белков (15), но было решено продолжить с ним.
Была составлена таблица, где находятся АС всех белков из full, их длины, информация о их принадлежности архитектуре и результат HMM поиска.
Последовательности, имеющие нужную доменную архитектуру, были извлечены из файла full программой seqret и выровнены программой muscle (результат). Полученное выравнивание было отредактировано в Jalview: удалены фрагменты до 16 остатка и после 296 (вне доменов), а также убраны сходные последовательности (порог 90%) (файл).
Осталось 5 последовательностей, которые были использованы для построения профиля:
hmm2build prof.out rev_aln_seqs.fa
hmm2calibrate prof.out
hmm2search -E 0.1 --cpu=1 prof.out full-134 > search.out
На выходе получен файл c профилем, по которому осуществлялся поиск с результатом в search.out.
По этим результатам были построены графики для анализа. Заметно, что после хита с весом 450 есть сильное падение находок по этому параметру, хотя и до него есть пара ложных результатов.
Также была построена ROC-кривая. Несмотря на то, что она достаточно резкая, думаю, порог можно выбрать при чувствителности 0,87, то есть равным 543,0.