Практикум 9. HMM-профиль семейства белков.

Задание 1. Выбор домена.

С помощью Excel был выбран подходящий по требованиям домен GAGA (GAGA factor). Члены этого семейства связываются с 5'-GAGAG-3' консенсусным сайтом связывания ДНК и содержат ядро цинкового пальца Cys2-His2. Ниже представлены некоторые характеристики данного семейства:

  • AC: PF09237
  • число последовательностей в: seed – 2, full – 186, uniprot – 378
  • cредняя длина домена – 46.1
  • cреднее сходство (identity) – 42%
  • Средний процент покрытия последовательности белка доменом (coverage) – 9.8%
  • Для домена известны 26 архитектур. Для изучения была выбрана двухдоменная архитектура Q2PDY2_DROME, состоящая из BTB И GAGA. Она встречается в 77 из 186 последовательностей.

    Рис.1. Двухдоменная архитектура, состоящая из BTB И GAGA.

    Был скачан файл со всеми последовательностями домена. Далее был составлен список их АС c помощью скрипта. Далее был составлен список всех АС с нужной нам доменной архитектурой и был создан файл с их последовательностями.

    Полученный файл был выровнен в Jailview, также были удалены фрагменты до первого домена и после второго, лишние последовательности и последовательности с большим процентом идентичности. Результаты можно увидеть здесь.

    Построение HMM-профиля семейства белков.

    Для построения профиля использовался пакет HMMER. Были выполнены следующие команды:

    hmm2build HMM aln.fa

    hmm2calibrate HMM

    hmm2search --cpu=1 -E 1 HMM full.fasta> results.txt

    В результате был получен НММ-профиль двухдоменой структуры длиной 374 и файл с результатами поиска профиля по набору белков с выбранным доменом.

    Анализ HMM-профиля

    Для анализа профиля была построена таблица со следующими важными для анализа столбцами:

  • Sequence - AC белка
  • score - вес по HMM профилю
  • E-value - E-value по HMM профилю
  • architecture - содержит yes, если AC встретился в списке белков с данной архитектурой, или no в противном случае
  • C помощью формул для нее были посчитаны значения specificity, 1 - sensitivity и F1. По данным в таблице были построены графики, которые приведены ниже.

    Рис.2. Распределение весов последовательностей.

    Рис.3. ROC-кривая.

    Рис.4. F1-кривая.

    Исходя из графика зависимости F1 от веса, можно сказать, что порог веса, обеспечивающий наибольшие точность и полноту, равен 351. Точка максимума, равная 0,81, данного графика соответствует оптимальному соотношению sensitivity и specificity. Полученный порог прошли 54 последовательности из 77, которые имеют данную доменную архитектуру. Возможно, это произошло из-за слишком жесткой ревизии. При этом, на графике распределения весов последовательности этот порог не очевиден визуально.