Для выполнения задания я решил выбрать каталитический домен Трипсинов (PF00089). Дело в том, что я уже работал со сруктурами этого домена в рамках выполнения своей курсовой работы, поэтому решил взять именно это семейство для HMM-профиля. Трипсины-сериновые протеазы, реакция происходит по схеме представленной ниже:
Я искал подсемейство с числом представителей не менее 40 и не более 200, по итогу я решил остановиться на архитектуре PF00089-PF03797. У данной структуры 84 представителя, что попадает в оптимальный интервал. Второй домен в данной архитектуре Autotransporter, это очень примечательный домен характерный для секретируемых белков грам-отрицательных бактерий. Он позволяет секретируемому белку проникать и пересекать внешнюю мембрану, на рисунке ниже представлен предполагаемый механизм работы данного домена:
Далее я скачал последовательности белков данной доменной архитектуры и импортировал их в Jalview, где выровнял их с помощью mafft с настройками по умолчанию. Я почистил последовательности с многочисленными инделями и убрал последовательности схожие больше чем на 95%. В итоге из 84 последовательностей, только 43 были отобраны в материал для построения профиля. Остальные последовательности, которые мы вырезали пойдут в положительный контроль. В качестве негативной выборки, возьмём последовательности всех белков с доменной архитектурой PF00089-PF14517 (Трипсин и Тахилектин). Всего 43 последовательности.
Для того чтобы создать HMM-профиль на основе отобранного материала воспользуемся командой: hmm2build -g out.txt domain_align.fa
Теперь откалибруем профиль: hmm2calibrate out.txt
Осуществим поиск по общей выборке, которую мы собрали из трёх выборок обозначенных выше: hmm2search --cpu1 out.txt full.fasta > search.txt
В результате я получил: HMM-профиль. файл выдачи Search.
Проанализируем данный файл c помощью скрипта, написанного Каримовой Кариной. С помощью него мы получим графики и гистограммы, а также файл таблицы.
Весовая гистограмма для тестовой выборки.
Весовая гистограмма для отрицательной выборки.
Весовая гистограмма для положительной выборки.
Кривая ROC. Как мы видим по графику, значение порога для определения доменной структуры должно быть равно 28.4, данный порог проходят 103 последовательности из 215 (47%) исходя из этого, данный профиль маловероятно подходит для нахождения доменной архитектуры .
График зависимости F1 от веса.