Практикум 9
Задание 1
Построение HMM-профиля
В данном практикуме я работал с доменом DpnI_C (PF17726). Это C-концевой HTH домен Dam-заменяющего белка (DRP) бактерии Neisseria meningitidis. DRP является эндонуклеазой рестрикции, причем ее ген окружен короткими инвертированными повторами и способен путем транспозиции заменять собой ген Dam-метилазы.
Основные характеристики выбранного домена представлены ниже.
- Число белков в выравнивании seed:
13 - Число белков в выравнивании full:
105 - Число белков в выравнивании UniProt:
822 - Длина HMM профиля из базы данных Pfam:
70 позиций - Средняя длина домена:
69.1 остатков - Средний процент идентичности:
41% - Среднее покрытие (в процентах):
22.46%
Из базы данных Pfam был скачан fasta файл, содержащий 105 белков выравнивания full.
Из 13 известных для данного домена архитектур была выбрана архитектура "DpnI, DpnI_C", которую имеют 66 из 105 белков. Как следует из названия, в ней домен DpnI (PF06044, про его функцию ничего найти не удалось) предшествует исслудуемому домену DpnI_C.
Для белков, имеющих выбранную архитектуру, была построена гистограмма длин (Рис. 1). Если исключить единичные "выпадающие" белки, диапазон характерных длин составит 250 - 275 остатков.
Далее было получено выравнивание белков семейства из интервала характерных длин, из него были удалены короткие плохо выравненные участки до первого и после второго субдомена. После этого были отброшены избыточные последовательности с порогом по идентичности 75%. Конечное выравнивание содержало 49 белков.
Для построения HMM-профиля, его калибровки и поиска по нему белков семейства в последовательностях выравнивания full были использованы следующие команды пакета hmmer:
hmm2build -g hmm.txt PF17726_filtered_align.fasta
hmm2calibrate hmm.txt
hmm2search hmm.txt PF17726_full_length_sequences.fasta --cpu 1 > output.txt
Построенный профиль имеет длину 262, выдача программы hmm2search доступна по ссылке.
Проверка результатов поиска по профилю
Основные характеристики находок по профилю (вес и E-value) были занесены в таблицу. В ней же отмечены АС последовательностей, имеющих выбранную двухдоменную архитектуру и белков, вошедших в выборку для составления профиля. Стоит отметить, что лишь в одной последовательности (AC: A0A316JBX9_9RHIZ) не была обнаружена доменная архитектура "DpnI, DpnI_C". Для определения порога, начиная с которого находку можно считать правильной, было построено распределение весов находок (Рис. 2).
Согласно распределению, порог по весу можно взять из интервала -50 - 375. Для определения более точного значения было найдено максимальное среди всех находок значение параметра F1, соответствующее наилучшему соотношению между специфичностью и чувствительностью теста. Оно равно 1.0 и принадлежит находке с весом 90.4. При этом площадь под построенной по данным таблицы ROC кривой (Рис. 3) равна единице. В совокупности все это говорит о том, что в данном случае две полученные группы (семейство с выбранной архитектурой и все остальные белки) можно полностью отделить порогом по весу в 90.4.
Результаты разделения множества находок по установленному порогу приведены в данной таблице:
(+) тест | (-) тест | |
---|---|---|
(+) истина | 66 | 0 |
(-) истина | 0 | 39 |