Селифонов (slfn) учебный сайт; Обо мне

Практикум 9

Задание 1

Построение HMM-профиля

В данном практикуме я работал с доменом DpnI_C (PF17726). Это C-концевой HTH домен Dam-заменяющего белка (DRP) бактерии Neisseria meningitidis. DRP является эндонуклеазой рестрикции, причем ее ген окружен короткими инвертированными повторами и способен путем транспозиции заменять собой ген Dam-метилазы.

Основные характеристики выбранного домена представлены ниже.

Из базы данных Pfam был скачан fasta файл, содержащий 105 белков выравнивания full.

Из 13 известных для данного домена архитектур была выбрана архитектура "DpnI, DpnI_C", которую имеют 66 из 105 белков. Как следует из названия, в ней домен DpnI (PF06044, про его функцию ничего найти не удалось) предшествует исслудуемому домену DpnI_C.

Для белков, имеющих выбранную архитектуру, была построена гистограмма длин (Рис. 1). Если исключить единичные "выпадающие" белки, диапазон характерных длин составит 250 - 275 остатков.

hist
Рис. 1. Гистограмма длин белков с доменной архитектурой "DpnI, DpnI_C".

Далее было получено выравнивание белков семейства из интервала характерных длин, из него были удалены короткие плохо выравненные участки до первого и после второго субдомена. После этого были отброшены избыточные последовательности с порогом по идентичности 75%. Конечное выравнивание содержало 49 белков.

Для построения HMM-профиля, его калибровки и поиска по нему белков семейства в последовательностях выравнивания full были использованы следующие команды пакета hmmer:

hmm2build -g hmm.txt PF17726_filtered_align.fasta
hmm2calibrate hmm.txt
hmm2search hmm.txt PF17726_full_length_sequences.fasta --cpu 1 > output.txt

Построенный профиль имеет длину 262, выдача программы hmm2search доступна по ссылке.

Проверка результатов поиска по профилю

Основные характеристики находок по профилю (вес и E-value) были занесены в таблицу. В ней же отмечены АС последовательностей, имеющих выбранную двухдоменную архитектуру и белков, вошедших в выборку для составления профиля. Стоит отметить, что лишь в одной последовательности (AC: A0A316JBX9_9RHIZ) не была обнаружена доменная архитектура "DpnI, DpnI_C". Для определения порога, начиная с которого находку можно считать правильной, было построено распределение весов находок (Рис. 2).

hist
Рис. 1. Распределение весов находок по составленному профилю в выборке full.
hist
Рис. 3. ROC кривая, построенная по данным таблицы.

Согласно распределению, порог по весу можно взять из интервала -50 - 375. Для определения более точного значения было найдено максимальное среди всех находок значение параметра F1, соответствующее наилучшему соотношению между специфичностью и чувствительностью теста. Оно равно 1.0 и принадлежит находке с весом 90.4. При этом площадь под построенной по данным таблицы ROC кривой (Рис. 3) равна единице. В совокупности все это говорит о том, что в данном случае две полученные группы (семейство с выбранной архитектурой и все остальные белки) можно полностью отделить порогом по весу в 90.4.

Результаты разделения множества находок по установленному порогу приведены в данной таблице:

(+) тест (-) тест
(+) истина 66 0
(-) истина 0 39