Домены и профили

Описание домена

Для анализа был выбран домен ATP-grasp_6 (ATP-grasp-like domain).

Характеристики:

  1. ID: ATP-grasp_6 
  1. AC: PF18419
  1. Число белков с доменом в выборках seed: 28
  1. Число белков с доменом в выборках full: 307
  1. Число белков с доменом в Uniprot: 1874
  1. Длина профиля HMM домена из Pfam: 54
Гистограмма длин белков

Описание архитектуры

Была выбрана двухдоменная архитектура, представленная 29 белками. Домен ATP-grasp_6 расположен после домена Glu_cys_ligase на расстоянии 102 остатка, ближе к началу белка.

  1. ID второго домена: Glu_cys_ligase
  1. AC второго домена: PF04262
  1. Название второго домена: Glutamate-cysteine ligase

Построение выравнивания

Файл с последовательностями выборки full.

Файл со списком AC белков с выбранной доменной архитектурой.

Файл с последовательностями белков с выбранной доменной архитектурой был получен следующей командой:

seqtk subseq full.fasta domain_ac.txt > domain_ac.fasta

С помощью программы Jalview Muscle with Defaults было получено выравнивание этих последовательностей. Ссылка на файл с выравниванием.

Ревизия выравнивания

Из выравнивания были удалены участки после второго домена (после 550 позиции выравнивания). Поскольку первый домен находится в самом начале белка, перед ним ничего не удалялось. Также были удалены четыре высокосходных последовательности при выставлении порога 75% и одна последовательность, сильно отличавшаяся от остальных.

Ссылка на итоговое выравнивание, использованное для построения HMM профиля.

Построение профиля

Профиль был построен с использованием пакета HMMER с помощью следующей команды:

hmm2build HMM final_alignment.fa

Команда калибровки профиля:

hmm2calibrate HMM

Команда поиска по профилю c порогом E-value 0.1:

hmm2search -E 0.1 --cpu 1 HMM full.fasta > search_result.txt

Ссылка на выдачу.

Далее были рассчитаны чувствительность, специфичность, точность, а также параметр F1. Ознакомиться с результатами можно по ссылке.

Был выбран итоговый порог веса 831.9, так как при нем параметр F1 максимален и равен 0,706. Ниже представлена Roc кривая, построенная на основе полученных данных. Судя по ее виду, построенный HMM профиль работает нормально.

Roc кривая