Практикум 10. HMM-профили

Семейство и подсемейство

Для дальнейшего анализа было выбрано семейство Ribulose bisphosphate carboxylase, small chain (Pfam ID: RuBisCO_small, AC: PF00101)

RuBisCO - комплекс белков, отвтсвенный за фиксацию углекислого газа во время цикла Кальвина. Малая субъединица этого комплекса необходима повышения уровня каталитической активности основной большой субъединицы. Также малая субъединица повышает уровень транскрипции генов большой субъединцы, а транскрипция генов малой субъединицы регулируется световым рецептором фитохромом.

Seed содержит 69 белков, full - 2976.

В качестве подсемейства была выбрана слудующая доменная архитерктура (рис. 1): домен АТФазный - домен, активирующий атфазную активность - непосредственно домен малой субъединицы RuBisCO.

Рис 1. Доменная архитектура, взятая как подсемейство.

Построение HMM-профиля

Для создания HMM-профиля были использованы все 37 белков.

Выравненные домены программой Muscle: fasta_dom_subfam.txt.

HMM-профиль: sub_rubisco.hmm.

Была использована следующая команда:

hmmbuild --amino sub_rubisco.hmm fasta_dom_subfam.txt

Поиск профилем по белкам семейства

Последовательности всех белков: fasta_all_subfam.txt.

Всего белков семейства 6747.

Для поиска подсемейства использовалась следующая команда:

hmmsearch -o sub_rubisco.tbl sub_rubisco.hmm fasta_all_subfam.txt

Таблица результатов: sub_rubisco.tbl.

Таблица 1. Численные характеристики выделения подсемейства профилем.
Принадлежность белка подсемейству Классификация по HMM-профилю
Score ≥ порога Score < порога
Белок подсемейства TP = 33 FN = 4
Белок не из подсемейства FP = 7 TN = 6699

Порог был выбран: 177.5, высокая чувствительность скорее всего связана с доменной архитектурой: карбоксилазный домен представлен дважды, но не полной последовательностью.