Для выполнения задания был выбран домен PF11471 (Maltoporin periplasmic N-terminal extension), так как его характеристики удовлетворяют всем требованиям задания:
AC домена: PF11471
Название домена: Sugarporin_N
Seed: 7
Full: 1200
UniProt: 2600
Средняя длина: 30.9 aa
Среднее сходство (%): 46
Средний процент покрытия белка доменом (%): 6.25
Длина профиля HMM из Pfam: 366
Все последовательности из выборки full были сохранены в файл PF11471_full_105.fasta. Этот домен встречается в четырех различных доменных архитектурах. Для выполнения задания была выбрана двухдоменная архитектура Sugarporin_N, Porin_8 (в последовательности указаны в таком же порядке). Архитектура включает 97 последовательностей. Из выборки full были отобраны последовательности с данной доменной архитектурой и сохранены в отдельный файл. Эти последовательности были выровнены с помощью Jalview и инструмента Muscle с параметрами по умолчанию. Из выравнивания были удалены участки до домена Sugarporin_N и после домена Porin_8. Также были исключены последовательности, совпадающие более чем на 85%, и дополнительно удалены 3 последовательности с делециями и еще 3 последовательности по другим причинам. В итоге осталось 10 последовательностей. Окончательное выравнивание было сохранено в файл.
Для построения HMM-профиля был использован пакет HMMER. Были использованы следующие команды:
hmm2build -g hmmout.txt seq_arch_align_revision.fa
hmm2calibrate hmmout.txt
В результате работы программы был получен HMM-профиль, имеющий длину 451 а.о. Далее с помощью HMMER был произведен поиск по HMM-профилю в выборке full с помощью следующей команды:
hmm2search --cpu=1 hmmout.txt PF11471_full_105.fasta > hmm_search_result.txt
Файл с результатом выдачи содержит 102 находки.
В итоге был создан файл с двумя листами. Лист 'final_table' содержит таблицу с колонками: AC всех белков, информация о наличии выбранной архитектуры, использован ли белок для построения HMM-профиля, входит ли белок в список находок, вес находки и E-value находки. Лист 'search' включает результаты поиска по HMM-профилю в выборке full, а также информацию о количестве белков в выборке full, количестве находок и количестве белков с выбранной архитектурой.
Сначала с помощью Excel был построен график распределения весов (рис. 1). На диаграмме можно наблюдать "ступеньку падения" веса между значениями -159.1 и 244.7, что позволяет предположить, что порог веса находится в этом интервале. Для подтверждения этого предположения была построена ROC-кривая.
Рис.1. Распределение весов находок
В таблицу на листе 'search' была добавлена колонка с информацией о принадлежности белка к выбранной архитектуре ('y' - принадлежит, 'n' - не принадлежит). Затем для каждого значения веса (считая, что каждый вес является порогом) были вычислены 1-специфичность и чувствительность, после чего построена ROC-кривая (рис. 2).
Рис.2. ROC-кривая
Для определения порога с оптимальными значениями чувствительности и специфичности для каждого веса было вычислено значение F1. Максимальное значение F1, равное 1, достигается при значении веса 244.70. Это значение и является порогом, разделяющим белки с выбранной архитектурой и без неё.