HMM профили доменов

Выбор домена и поиск семейства

Мы выбрали семейство Ubiquitin-conjugating enzyme E2-like IPR050113, являющееся подсемейством Ubiquitin-conjugating enzyme/RWD-like. Ферменты, конъюгирующие убиквитин, также известные как ферменты Е2 и реже как ферменты-переносчики убиквитина, выполняют вторую стадию реакции убиквитинирования, которая нацелена на расщепление белка с помощью протеасомы. В процессе убиквитинирования убиквитин, короткий белок, состоящий из 76 аминокислот, ковалентно присоединяется к остатку лизина в целевом белке. Как только белок помечен одной молекулой убиквитина, дополнительные этапы убиквитинирования формируют полиубиквитиновую цепь, которая распознается 19S-регуляторной частицей протеасомы, запуская АТФ-зависимое разворачивание белка-мишени, что позволяет перейти к 20S-основной частице протеасомы, где протеазы расщепляют мишень на короткие пептидные фрагменты для вторичной переработки в ячейке.

Рис.1 Убиквитин-опосредованный процесс деградации белков

В поиске по доменам мы выбрали домен Ubiquitin-conjugating enzyme PF00179.

Мы выбрали подсемейство с доменной архитектурой PF14479 - PF00179, содержащее 65 белков (рис.2).

Рис.2 Доменная архитектура подсемейства белков, выделенного в семействе IPR050113 на основе общей доменной архитектуры

Поиск сигналов и мотивов в представителях семейства

Последовательности 65 белков были выровнены в Jalview программой muscle. Затем мы вырезали консервативный домен UQ_con и составили по нему HMM профиль:

hmmbuild --amino ubuquitin_hmm UQ_domain    #Выдача

Затем мы скачали все аннотированные белки из семейства Ubiquitin-conjugating enzyme (371 штука) и в них поискали последовательности, которые лучше всего соответствуют предоставленному профилю:

hmmsearch  --domtblout ubi_res.tbl ubuquitin_hmm ubi_rev.fasta > ubisearch.txt       # Выдача

Лучшая находка:

Первые 22 находки да и в целом наиболее встречающийся белок в выдаче это различные варианты enzyme E2 2: enzyme E2 D2, enzyme E2-16 kDa, enzyme E2 D3, enzyme E2 4 и другие. После просмотра страниц этих белков в UniProtKB стало понятно, что это ортологи из разных организмов и что это однодоменный белок (в UniProtKB этот домен отмечен как UBC core). Поэтому эти находки наилучшим образом соответствуют профилю полученного по домену UQ_con.

Далее в выдаче встречается белок SUMO-conjugating. Параметры лучшей находки среди этого типа белков:

SUMO-conjugating (SUMOylation) — это обратимая посттрансляционная модификация, при которой небольшие белки-модификаторы, подобные убиквитину (SUMO), ковалентно присоединяются к остаткам лизина в белках-мишенях. Этот ферментативный процесс контролирует клеточные процессы, такие как ядерный транспорт, транскрипция, репарация ДНК и стабильность белка, посредством ферментативного каскада E1-E2-E3, упомянутого выше. Это интересно, так как в ходе реакции убиквинирования карбоксильная группа глицина-76 убиквитина образует изопептидную связь с аминогруппой лизина.

Анализ находок

Анализ распределения score выявил несколько разрывов:

Наиболее оптимальным порогом мы выбрали 119.9. При данном пороге разрыв в 3.6 бита score между 116.3 и 119.9 биологически значим: ниже него идут белки с нетипичной для подсемейства доменной архитектурой (например, Q8LGF7 — PEROXIN-4, пероксисомальная E2-лигаза из A. thaliana — гомолог, но другого функционального класса).

Положительный класс = Ubiquitin-conjugating enzyme E2 (канонические E2, аннотированные как ubiquitin-conjugating)
Отрицательный класс = родственные, но не-E2: SUMO-конъюгирующие (UBC9), NEDD8-конъюгирующие (UBC12, UBE2F), UFM1-конъюгирующие, AKTIP, crossbronx, VPS37A и др.
Последовательности, не обнаруженные HMM совсем — считаются TN (не-E2, корректно пропущены)

HMM: найдено (+) HMM: не найдено (−) Итого
Аннотация: E2 убиквитин TP = 277 FN = 5 282
Аннотация: не-E2 (SUMO/NEDD8/др.) FP = 81 TN = 8 89
Итого 358 13 371

Про 13 белков, которых HMM не нашёл

В семействе Ubiquitin-conjugating enzyme был 371 белок, в итоговой выдаче hmmsearch их 358. Тринадцати белков не хватает. Эти 13 белков прошли MSV и bias фильтры, но не прошли финальный фильтр Viterbi (в статистике файла: Passed Vit filter: 358, а Passed bias filter: 359 и Passed MSV: 360). Одна последовательность выбыла именно на этом этапе. Остальные 12 вообще не прошли даже первичный фильтр.

13 ненайденных последовательностей:

Итого из 13: FN = 5, TN = 8