Для работы был выбран домен Hydrolase_2 (PF07486), гидролазы клеточной стенки Bacillus subtilis. Этот домен имеют 924 известных белка и он встречается в составе 32 архитектур (их можно посмотреть по ссылке: http://pfam.xfam.org/family/PF07486). Для дальнейшей работы было выбрано 2 архитектуры, U5RYI7_9CLOT и U5L883_9BACI.
Первая архитектура, U5RYI7_9CLOT, встречается в 166 последовательностях и имеет два два домена: некоторый пептидогликан-связывающий домен и гидролазу клеточной стенки. Вторая архитектура, U5L883_9BACI, встречается в 38 последовательностях и тоже имеет два домена - LysM, связанный с деградацией бактериальной клеточной стенки (возможно пептидогликан-связывающий), и гидролазу клеточной стенки.
Были созданы выравнивание всех белков с этим доменом ( в формате fasta и jalview ).
Также была создана сводная таблица с таксономией в Excel для всех белков, имеющих данный домен Hydrolase_2.
output_table.xls
Был выбран таксон Firmicutes, и в нем два подтаксона Clostridia и Bacilli.
В обоих подтаксонах есть 15 последовательностей, представленных в каждой из архитектур.
Список выбранных белков: architecture_2.txt
Для этих последовательностей было составлено выравнивание.
Оно доступно по ссылкам в fasta формате - last_iteration_2_aligned.fastaи в виде jalview проекта - project_3.jvp.
1 - первая архитектура(U5RYI7_9CLOT) 2 - вторая архитектура(U5L883_9BACI) B - Bacilli С - Clostridia
Большинство белков, имеющих разную доменную архитектуру, принадлежат к разным кладам на дереве. Также наблюдается, что представители одного подтаксона чаще принадлежат к одной кладе.
Было выбрано подсемейство, отделенное ветвью с поддержкой 0.10 (снизу на дереве). По выравниванию отобранных последовательностей был создан и откалиброван профильс использованием hmm2build и hmm2calibrate. Профиль был необходим для поиска по всем белкам Uniprot с помощью программы hmm2search. Был получен данный файл profile.txt. Данные из файла были перенесены в таблицу Excel profile_2.xls. В таблице были отмечены все последовательности, участвующие в построении профиля, как True, а остальные как False. Далее была построена ROC кривая.
С ее помощью был выбран порог E_value, порог равен 1.4E-75. Далее приведена статистика при данном пороге.