Краткая информация по выбранному домену:
Для построения профиля я выбрал архитектуру, представленную белком K7VUZ8. В ней было 156 последовательностей. Я выровнял их алгоритмом MAFFT, затем вырезал участок, содержащий два домена, и выровнял его еще раз (сначала через MAFFT, а потом через MUSCLE, так как мне не понравилось начало нового выравнивания). Я удалил те последовательности, из-за которых возникали длинные индели в участках доменов, и установил порог для Remove redundancy 90%. После всех этих преобразованией в конченой выборке осталось всего 96 белков.
Ниже представлены команды, с помощью которых я создал и откалибровал профиль (длина 525), а также провел поиск по PF18933-full-238.fasta:
Результат работы HMM2 для тестовой выборки и отрицательного контроля.
Я записал таблицу из hmm2_res.txt в отдельный файл и отредактировал её, чтобы облегчить дальнейшую работу (ссылка на таблицу). Аналогичная таблица была сделана для отрицательного контроля. Далее используя python, я добавил к этой таблице столбцы: has_architecture и in_profile, где 1 соответствует True, а 0 - значению False (ссылка на блокнот в Colab). Работу с новой таблицей я продолжил в excel, где посчитал значения чувствительности и специфичности, по которым построил ROC-кривую. По данному графику (см. Рис. 1) и гистограмме весов последовательностей я установил порог веса равным -270. Итоговая таблица.