Блок 4

  1. Восстановление предкового состояния доменной архитектуры

Для работы был выбран домен Hydrolase_2 (PF07486), гидролазы клеточной стенки Bacillus subtilis. Этот домен имеют 924 известных белка и он встречается в составе 32 архитектур (их можно посмотреть по ссылке: http://pfam.xfam.org/family/PF07486). Для дальнейшей работы было выбрано 2 архитектуры, U5RYI7_9CLOT и U5L883_9BACI.

domains/1.png

Первая архитектура, U5RYI7_9CLOT, встречается в 166 последовательностях и имеет два два домена: некоторый пептидогликан-связывающий домен и гидролазу клеточной стенки. Вторая архитектура, U5L883_9BACI, встречается в 38 последовательностях и тоже имеет два домена - LysM, связанный с деградацией бактериальной клеточной стенки (возможно пептидогликан-связывающий), и гидролазу клеточной стенки.

  1. Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой

Были созданы выравнивание всех белков с этим доменом ( в формате fasta и jalview ). Также была создана сводная таблица с таксономией в Excel для всех белков, имеющих данный домен Hydrolase_2.
output_table.xls Был выбран таксон Firmicutes, и в нем два подтаксона Clostridia и Bacilli. В обоих подтаксонах есть 15 последовательностей, представленных в каждой из архитектур. Список выбранных белков: architecture_2.txt Для этих последовательностей было составлено выравнивание. Оно доступно по ссылкам в fasta формате - last_iteration_2_aligned.fastaи в виде jalview проекта - project_3.jvp.

  1. Построение филогенетического дерева последовательностей домена Филогенетическое дерево строилось для домена hydrolase 2, который был найден исходя из 3D структуры одной из последовательностей. Он был выделен из выравнивания. На основании этого выравнивания домена было построено филогенетическое дерево. Для построения использовался метод Maximum Likelihood в программе MEGA. Было построено укорененное дерево (представлено ниже). Также приводится скобочная формула tree_newick.nwk.

tree_1.png

1 - первая архитектура(U5RYI7_9CLOT) 2 - вторая архитектура(U5L883_9BACI) B - Bacilli С - Clostridia

Большинство белков, имеющих разную доменную архитектуру, принадлежат к разным кладам на дереве. Также наблюдается, что представители одного подтаксона чаще принадлежат к одной кладе.

  1. Профиль семейства последовательностей белков

Было выбрано подсемейство, отделенное ветвью с поддержкой 0.10 (снизу на дереве). По выравниванию отобранных последовательностей был создан и откалиброван профильс использованием hmm2build и hmm2calibrate. Профиль был необходим для поиска по всем белкам Uniprot с помощью программы hmm2search. Был получен данный файл profile.txt. Данные из файла были перенесены в таблицу Excel profile_2.xls. В таблице были отмечены все последовательности, участвующие в построении профиля, как True, а остальные как False. Далее была построена ROC кривая.

3.png

С ее помощью был выбран порог E_value, порог равен 1.4E-75. Далее приведена статистика при данном пороге.

2.png