практикум 10. HMM-профили и эволюционные домены
1. выбранное семейство
в качестве исследуемого семейства pfam был выбран домен рецептора ответного регулятора (PF00072, Response_reg, IPR001789). это один из самых распространённых доменов в базах данных - в full-выравнивании семейства содержится более 486 000 последовательностей, в seed - 52.
домен входит в состав ответных регуляторов двухкомпонентных сигнальных систем бактерий. схема работы такая: сенсорная гистидинкиназа воспринимает сигнал извне и переносит фосфатную группу со своего консервативного His на консервативный Asp внутри домена PF00072. это фосфорилирование меняет конформацию белка и активирует эффекторный домен - чаще всего ДНК-связывающий, и тогда белок начинает регулировать транскрипцию генов в ответ на стресс, питательные вещества, сигналы хемотаксиса и так далее.
2. выбранное подсемейство
подсемейство выбрано по критерию доменной архитектуры: PF00072 (Response_reg) + PF03861 (ANTAR).
ANTAR расшифровывается как AmiR and NasR Transcription Antitermination Regulators (IPR005561) - это небольшой РНК-связывающий домен (~60 аминокислот, три альфа-спирали), который после активации связывает шпилечные структуры в лидерных участках транскриптов и не даёт РНК-полимеразе остановиться раньше времени. то есть белки этого подсемейства работают принципиально иначе, чем большинство ответных регуляторов: они регулируют не инициацию транскрипции на промоторе, а её преждевременное завершение.
прототипические представители - AmiR из Pseudomonas aeruginosa (регулятор оперона алифатической амидазы) и NasR из Klebsiella oxytoca (регулятор оперона ассимиляции нитрата). последовательности подсемейства скачаны с UniProt по запросу xref:pfam-PF00072 AND xref:pfam-PF03861 - получилось 100 белков, которые и были использованы для построения профиля.
3. построение профиля HMM
скачанные белки выровнены программой MAFFT с параметрами по умолчанию:
задание просит строить профиль именно по доменным последовательностям, а не по полным белкам. для вырезания домена были получены координаты PF00072 из UniProt-аннотации белка P9WGM3 (PdtaR, M. tuberculosis H37Rv) - позиции 15-129. эти позиции были смаппированы на столбцы выравнивания (637-754), после чего для всех 100 последовательностей был вырезан именно этот участок. итоговое выравнивание доменов - 118 столбцов.
по этому выравниванию построен HMM-профиль:
профиль содержит 115 match-состояний, эффективное число последовательностей (eff_nseq) - 1.21, что говорит о том, что последовательности в наборе достаточно похожи между собой.
4. поиск по семейству
в качестве области поиска скачаны все reviewed-белки семейства PF00072 из Swiss-Prot (1024 последовательности). поиск выполнен командой:
из 1024 белков нашлось 1011 хитов, остальные 13 - вероятно, слишком дивергировавшие последовательности, которые не попали в вывод даже при мягком пороге.
для оценки метрик нужно было определить true positives - белки, которые одновременно присутствуют в области поиска (reviewed, PF00072) и в подсемействе (PF00072+PF03861). пересечение дало ровно 2 белка: P9WGM3 и P9WGM2. это две Swiss-Prot записи одного и того же белка PdtaR (ген Rv1626) из Mycobacterium tuberculosis - просто для разных штаммов (H37Rv и CDC1551 соответственно). PdtaR - хорошо охарактеризованный антитерминационный регулятор с подтверждённой кристаллической структурой (PDB 1SD5): N-концевой receiver-домен фосфорилируется когнатной гистидинкиназой PdtaS, после чего C-концевой ANTAR связывает РНК-мишени и регулирует экспрессию генов.
5. определение оптимального порога
был написан python-скрипт, который считает TP, FP, FN, TN для каждого уникального значения скора. выдача скрипта:
картина получилась очень чёткой. оба члена подсемейства (P9WGM3 и P9WGM2) набрали скор 188.9, а уже следующий белок в списке - RcaC из Fremyella diplosiphon (Q01473) - только 116.3. разрыв в 72 единицы говорит о хорошей разделяющей способности профиля.
важно отметить, что RcaC - не ANTAR-белок: у него два receiver-домена (PF00072), ДНК-связывающий OmpR-тип HTH домен и HPt-домен, то есть он работает на уровне промоторов, а не через антитерминацию. высокий скор объясняется именно наличием полноценных receiver-доменов, которые хорошо совпадают с нашим профилем, - это классический пример ложноположительного срабатывания из-за наличия гомологичного домена при отсутствии целевой функции.
оптимальным порогом выбрано значение 188.9: при нём оба члена подсемейства находятся без единого ложного срабатывания, а дальше начинаются белки, у которых нет ANTAR-домена.
6. итоговые метрики
метрики для порога 188.9 представлены в таблице 1.
таблица 1. метрики для оптимального порога (score ≥ 188.9).
| предсказано + | предсказано - | |
|---|---|---|
| фактически + | TP = 2 | FN = 0 |
| фактически - | FP = 0 | TN = 1022 |
TP + FP + FN + TN = 1024, что совпадает с общим числом белков в области поиска.