Домены и профили

Задание 1: Cписок белков Uniprot с заданным составом доменов Pfam

Для выполнения практикума я выбрала домен Aminotran_5 Pfam и доменную архитектуру, состоящую из этого домена и Fe-S metabolism associated domain. Данные домены представлены у бактерий

Картиночка

Выбранная доменная архитектура

По данным, предоставленным в PFAM, эта архитектура встречается в 50 белках любых организмов. Однако по данным Uniprot в 147 белках среди бактерий. Возможно база данных PFAM давно не обновлялась.

ID AC Название Количество белков бактерий, в состав которых входит домен
Aminotran_5 PF00266 Aminotransferase class-V 184,872
SufE PF02657 Fe-S metabolism associated domain 16,504

Чтобы получить список бактериальных белков, в состав которых входит выбранная доменная архитектура, в расширенный поиск Uniprot было введено: database:(type:pfam pf00266) database:(type:pfam pf02657) taxonomy:bacteria

Таблица с информацией о всех бактериальных белках с выбранной доменной архитектурой

Чтобы определить типиные длины белков, была построена гистограмма длин белков (картинка ниже). Мода длин белков составляет 562.

Картиночка

Далее в таблице с информацией о всех бактериальных белках с выбранной доменной архитектурой я оставила только белки с характерной длиной, то есть с длиной из диапазона 558-569. Я решила выбрать такой диапазон, опираясь на полученную гистограмму. Таким образом, мы стремимся получить список белков с нужной архитектурой. Ведь слишком короткие, вероятно, будут содержать только фрагменты доменов, а слишком длинные могут содержать домены, еще не охарактеризованные в Pfam. Всего было выбрано 53 белка

Задание 2: Построение hmm профиля семейства белков с выбранной архитектурой. Проверка его работы.

Получение множественного выравнивания отобранных белков.

Были скачаны отобранные последовательности белков, а затем выровняны командой muscle. Чтобы провести "ревизию" выравнивания я:1) Нашла N-концевой консервативный блок и удалила все колонки до него. 2)Удалила те последовательности, в которых N-концевой консервативный блок отсутствует. 3)Нашла С-концевой консервативный блок и удалила все колонки после него. 4)Также я удалила из множественного выравнивания последовательности, в которых наблюдаются длинные вставки. Таким образом, я удалила 10 последовательностей.

Выравнивание после "ревизии".

Команды для построения и калибровки HMM профиль выравнивания:

  • hmm2build hmm1 muscle_proteins_revizia.fa - строит профиль по выравниванию
  • hmm2calibrate hmm1 - добавляет в тот же файл-профиль строчку EDV с коэффициентами пересчета веса в нормализовнный (калибровка профиля)
  • Файл после колибровки

    Проверка работы hmm профиля.

    Для того, чтобы проверить работу профиля, буду искать белки с заданной архитектурой среди белков, включающих один домен из архитектуры, используя откалиброванный профиль. Из Uniprot я скачала все бактериальные последовательности, содержащие Fe-S metabolism associated домен в fasta формате. Таких последовательнойстей оказалось 17700, в то время как белков с доменом Aminotransferase class-V было найдено 211790. Для поиска белков с заданной доменной архитектурой с помощью hmm профиля использовалась команда:

  • hmm2search --domE 0.1 --domT 0 hmm1 Fe_domain.fasta > results.txt
  • Файл c находками (здесь же вычислены чувствительность, мощность, параметр F1)

    Сравнение списка находок с исходной таблицей.

    Были обнаружены все белки с нужной доменной архитектурой, кроме двух (в дальнейшем я учту это при вычислении чувствительности и мощности). При этом было найдено 3 лишних белка (в таблице они отмечены красным)

    Подбор порога веса для предсказания того, что находка имеет нужную доменную архитектуру.

    Чтобы подобрать оптимальный порог веса для поиска определенной доменной архитектуры с помощью hmm профиля, я посчитала чувствительность (ось y) и мощность (ось x) теста для разных порогов веса. По этим данным построла ROC - кривую:

    Картиночка

    Далее я построила распределение весов находок :

    Картиночка

    По моим данным наибольшее значение параметра F1 достигается при пороговом значении веса, равном 0. То есть при том, который был выбран с самого начала. Это логично, ведь высталяя такой порог, мы получаем список белков почти полностью соответствующий реальным данным. Содержательно,этот параметр позволяет найти порог, при котором наиболее сбалансированы частоты ложно положительных и ложно отрицательных предсказаний.