HMM профили доменов
Выбор домена и поиск семейства
Мы выбрали семейство Ubiquitin-conjugating enzyme E2-like IPR050113, являющееся подсемейством Ubiquitin-conjugating enzyme/RWD-like. Ферменты, конъюгирующие убиквитин, также известные как ферменты Е2 и реже как ферменты-переносчики убиквитина, выполняют вторую стадию реакции убиквитинирования, которая нацелена на расщепление белка с помощью протеасомы. В процессе убиквитинирования убиквитин, короткий белок, состоящий из 76 аминокислот, ковалентно присоединяется к остатку лизина в целевом белке. Как только белок помечен одной молекулой убиквитина, дополнительные этапы убиквитинирования формируют полиубиквитиновую цепь, которая распознается 19S-регуляторной частицей протеасомы, запуская АТФ-зависимое разворачивание белка-мишени, что позволяет перейти к 20S-основной частице протеасомы, где протеазы расщепляют мишень на короткие пептидные фрагменты для вторичной переработки в ячейке.
В поиске по доменам мы выбрали домен Ubiquitin-conjugating enzyme PF00179.
- Name — Ubiquitin-conjugating enzyme
- AC — PF00179
- ID — UQ_con
- Клан — UBC
- Количество белков в seed — 64
- Количество белков в full — 93 146
Мы выбрали подсемейство с доменной архитектурой PF14479 - PF00179, содержащее 65 белков (рис.2).
Поиск сигналов и мотивов в представителях семейства
Последовательности 65 белков были выровнены в Jalview программой muscle. Затем мы вырезали консервативный домен UQ_con и составили по нему HMM профиль:
hmmbuild --amino ubuquitin_hmm UQ_domain #Выдача
Затем мы скачали все аннотированные белки из семейства Ubiquitin-conjugating enzyme (371 штука) и в них поискали последовательности, которые лучше всего соответствуют предоставленному профилю:
hmmsearch --domtblout ubi_res.tbl ubuquitin_hmm ubi_rev.fasta > ubisearch.txt # Выдача
Лучшая находка:
- AC — P35134
- Описание — enzyme E2 11
- E-value — 1.4e-46
- Score — 151.9
Далее в выдаче встречается белок SUMO-conjugating. Параметры лучшей находки среди этого типа белков:
- AC — P35132
- Описание — enzyme UBC9
- E-value — 2.7e-45
- Score — 147.7
SUMO-conjugating (SUMOylation) — это обратимая посттрансляционная модификация, при которой небольшие белки-модификаторы, подобные убиквитину (SUMO), ковалентно присоединяются к остаткам лизина в белках-мишенях. Этот ферментативный процесс контролирует клеточные процессы, такие как ядерный транспорт, транскрипция, репарация ДНК и стабильность белка, посредством ферментативного каскада E1-E2-E3, упомянутого выше. Это интересно, так как в ходе реакции убиквинирования карбоксильная группа глицина-76 убиквитина образует изопептидную связь с аминогруппой лизина.
Анализ находок
Анализ распределения score выявил несколько разрывов:
- Первый — 142.9 → 134, выше этого порога 40 находок
- Второй - 119.9 → 116.3, выше этого порога 70 находок
- Третий — 113.3 → 109.2 , выше этого порога 76 находок
Наиболее оптимальным порогом мы выбрали 119.9. При данном пороге разрыв в 3.6 бита score между 116.3 и 119.9 биологически значим: ниже него идут белки с нетипичной для подсемейства доменной архитектурой (например, Q8LGF7 — PEROXIN-4, пероксисомальная E2-лигаза из A. thaliana — гомолог, но другого функционального класса).
Положительный класс = Ubiquitin-conjugating enzyme E2 (канонические E2, аннотированные как ubiquitin-conjugating) Отрицательный класс = родственные, но не-E2: SUMO-конъюгирующие (UBC9), NEDD8-конъюгирующие (UBC12, UBE2F), UFM1-конъюгирующие, AKTIP, crossbronx, VPS37A и др. Последовательности, не обнаруженные HMM совсем — считаются TN (не-E2, корректно пропущены)
| HMM: найдено (+) | HMM: не найдено (−) | Итого | |
|---|---|---|---|
| Аннотация: E2 убиквитин | TP = 277 | FN = 5 | 282 |
| Аннотация: не-E2 (SUMO/NEDD8/др.) | FP = 81 | TN = 8 | 89 |
| Итого | 358 | 13 | 371 |
Про 13 белков, которых HMM не нашёл
В семействе Ubiquitin-conjugating enzyme был 371 белок, в итоговой выдаче hmmsearch их 358. Тринадцати белков не хватает. Эти 13 белков прошли MSV и bias фильтры, но не прошли финальный фильтр Viterbi (в статистике файла: Passed Vit filter: 358, а Passed bias filter: 359 и Passed MSV: 360). Одна последовательность выбыла именно на этом этапе. Остальные 12 вообще не прошли даже первичный фильтр.
13 ненайденных последовательностей:
- 7 crossbronx (B3MEZ6, B3N6U7, B4HT57, B4J613, B4LNV5, B4NWM2, B4QHS6) — разные виды дрозофил. Это не-E2 то есть True Negative
- 1 pendolino (Q7K4V4) — это тоже UBC-fold белок, не канонический E2 это True Negative
- 4 UBE2Q2 (Q32L27, Q7YQJ9, Q8K2Z8, Q8WVN8) — аннотированы как "Ubiquitin-conjugating enzyme E2 Q2", это канонические E2 то есть это False Negative
- 1 CG4502 — "E2Q-like protein", канонический E2 это False Negative
Итого из 13: FN = 5, TN = 8