Практикум 11. Домены и профили

Поиск домена и архитектуры с подготовкой файлов.

Для выполнения задания был выбран домен PF11471 (Maltoporin periplasmic N-terminal extension), так как его характеристики удовлетворяют всем требованиям задания:

AC домена: PF11471

Название домена: Sugarporin_N

Seed: 7

Full: 1200

UniProt: 2600

Средняя длина: 30.9 aa

Среднее сходство (%): 46

Средний процент покрытия белка доменом (%): 6.25

Длина профиля HMM из Pfam: 366

Все последовательности из выборки full были сохранены в файл PF11471_full_105.fasta. Этот домен встречается в четырех различных доменных архитектурах. Для выполнения задания была выбрана двухдоменная архитектура Sugarporin_N, Porin_8 (в последовательности указаны в таком же порядке). Архитектура включает 97 последовательностей. Из выборки full были отобраны последовательности с данной доменной архитектурой и сохранены в отдельный файл. Эти последовательности были выровнены с помощью Jalview и инструмента Muscle с параметрами по умолчанию. Из выравнивания были удалены участки до домена Sugarporin_N и после домена Porin_8. Также были исключены последовательности, совпадающие более чем на 85%, и дополнительно удалены 3 последовательности с делециями и еще 3 последовательности по другим причинам. В итоге осталось 10 последовательностей. Окончательное выравнивание было сохранено в файл.

Построение HMM-профиля

Для построения HMM-профиля был использован пакет HMMER. Были использованы следующие команды:

hmm2build -g hmmout.txt seq_arch_align_revision.fa

hmm2calibrate hmmout.txt

В результате работы программы был получен HMM-профиль, имеющий длину 451 а.о. Далее с помощью HMMER был произведен поиск по HMM-профилю в выборке full с помощью следующей команды:

hmm2search --cpu=1 hmmout.txt PF11471_full_105.fasta > hmm_search_result.txt

Файл с результатом выдачи содержит 102 находки.

В итоге был создан файл с двумя листами. Лист 'final_table' содержит таблицу с колонками: AC всех белков, информация о наличии выбранной архитектуры, использован ли белок для построения HMM-профиля, входит ли белок в список находок, вес находки и E-value находки. Лист 'search' включает результаты поиска по HMM-профилю в выборке full, а также информацию о количестве белков в выборке full, количестве находок и количестве белков с выбранной архитектурой.

Проверка HMM-профиля

Сначала с помощью Excel был построен график распределения весов (рис. 1). На диаграмме можно наблюдать "ступеньку падения" веса между значениями -159.1 и 244.7, что позволяет предположить, что порог веса находится в этом интервале. Для подтверждения этого предположения была построена ROC-кривая.

Рис.1. Распределение весов находок

В таблицу на листе 'search' была добавлена колонка с информацией о принадлежности белка к выбранной архитектуре ('y' - принадлежит, 'n' - не принадлежит). Затем для каждого значения веса (считая, что каждый вес является порогом) были вычислены 1-специфичность и чувствительность, после чего построена ROC-кривая (рис. 2).

Рис.2. ROC-кривая

Для определения порога с оптимальными значениями чувствительности и специфичности для каждого веса было вычислено значение F1. Максимальное значение F1, равное 1, достигается при значении веса 244.70. Это значение и является порогом, разделяющим белки с выбранной архитектурой и без неё.