Восстановление предкового состояния доменной архитектуры
Задание 1. Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой.
Был выбран домен с ID PDEase_I и AC PF00233. Функция этого домена -
нести активность фосфодиэстеразы, т.е. гидролизовать 3'-5' фосфодиэфирную связь циклических нуклеотидов.
Оптимум рН для каталитической активности приходится на слабощелочную область. Данный домен встречается в составе
40 доменных архитектур, по которым распределены 2335 последовательностей 1129 видов.
Было выбрано две доменные архитектуры:
PDEase_I. Такая архитектура встречается в 2153 последовательностях.
GAF х 2, PDEase_I. Такая архитектура встречается в 507 последовательностях.
В качестве таксона был выбран домен Eukaryota, подтаксоны: Ecdysozoa и Chordata. В этом файле содержится информация о всех белках Uniprot, содержащих выбранный домен.
Из полного выравнивания домена было "отфильтровано" 40 последовательностей, из выравнивания были удалены пустые колонки, в нём не оказалось фрагментов и плохо выравненных последовательностей. Проект содержит две группы: PDEase_I и GAF-GAF-PDEase_I, которые соответствуют архитектурам. Для обоих групп был выставлен порог консервативности 10%. Что интересно, группы доменов из разных архитектур легко различаются визуально.
Задание 2. Построение филогенетического дерева последовательностей домена
Рис. 1. Голубым цветом и маркировкой P_E отмечены представители доменной архитектуры PDEase_I подтаксона Ecdysozoa, сиреневым цветом и маркировкой P_C отмечены представители доменной архитектуры PDEase_I и подтаксона Chordata, жёлтым цветом и маркировкой GGP_E - архитектуры GAF-GAF-PDEase_I подтаксона Ecdysozoa, зеленоватым цветом и маркировкой GGP_C - архитектуры GAF-GAF-PDEase_I подтаксона Chordata.
Дерево было построено с помощью программы Mega с использованием метода Maximum likelihood, укоренено в среднюю точку с помощью программы PHYLIP retree и раскрашено с помощью ITOL.
Заметно, что, в основном, клады соответствуют доменным архитектурам. Ветвь, в которую укоренено дерево, соответствует разделению на доменные архитектуры. В кладе, соответствующей доменной архитектуре Pdease_I подсемейства соответствуют таксонам, а в кладе, соответствующей GAF-GAF-Pdease_I трудно проследить разделение на таксоны. Ссылка на дерево в формате Newick.
Задание 3.
Была выбрана клада на дереве, включающая последовательности:
GGP_E_E2BNK0/726-960
GGP_E_E9IWT3/637-872
GGP_E_A0A088ADF4/716-950
GGP_E_Q7QB99/723-957
GGP_E_T1HTV2/539-772
GGP_E_PDE6/706-940
GGP_E_PDE6/742-976.
С помощью программ пакета HMMER3 был построен профиль, а затем произведён поиск по файлу со всеми белками из Uniprot, содержащих выбранный домен.
Результаты поиска с колонкой, принадлежит ли находка профилю представлены в этом файле. Рис. 2. ROC-кривая. Выбранный порог E-value - 4,60E-087 (красная точка), так как в этом месте достигается наибольшая разность (чувствительность - (1 - специфичность)) ~= 0.88. Соответственно, значения чувствительности и специфичности максимальны. Таблица 1. Характеристики профиля.
принадлежит подсемейству
не принадлежит
сумма
выше порога по профилю
54
148
202
ниже порога
4
2633
2637
сумма
58
2781
2839
Чувствительность профиля при данном пороге - 0.93, специфичность - 0.947. Исходя из таких значений, можно предполагать, что профиль будет работать хорошо, поэтому его можно использовать для выделения подсемейства.