Эволюционные домены

Восстановление предкового состояния доменной архитектуры

Задание 1. Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой.

Был выбран домен с ID PDEase_I и AC PF00233. Функция этого домена - нести активность фосфодиэстеразы, т.е. гидролизовать 3'-5' фосфодиэфирную связь циклических нуклеотидов. Оптимум рН для каталитической активности приходится на слабощелочную область. Данный домен встречается в составе 40 доменных архитектур, по которым распределены 2335 последовательностей 1129 видов. Было выбрано две доменные архитектуры:
  • PDEase_I. Такая архитектура встречается в 2153 последовательностях.
  • GAF х 2, PDEase_I. Такая архитектура встречается в 507 последовательностях.
  • В качестве таксона был выбран домен Eukaryota, подтаксоны: Ecdysozoa и Chordata. В этом файле содержится информация о всех белках Uniprot, содержащих выбранный домен. Из полного выравнивания домена было "отфильтровано" 40 последовательностей, из выравнивания были удалены пустые колонки, в нём не оказалось фрагментов и плохо выравненных последовательностей. Проект содержит две группы: PDEase_I и GAF-GAF-PDEase_I, которые соответствуют архитектурам. Для обоих групп был выставлен порог консервативности 10%. Что интересно, группы доменов из разных архитектур легко различаются визуально.

    Задание 2. Построение филогенетического дерева последовательностей домена


    Рис. 1. Голубым цветом и маркировкой P_E отмечены представители доменной архитектуры PDEase_I подтаксона Ecdysozoa, сиреневым цветом и маркировкой P_C отмечены представители доменной архитектуры PDEase_I и подтаксона Chordata, жёлтым цветом и маркировкой GGP_E - архитектуры GAF-GAF-PDEase_I подтаксона Ecdysozoa, зеленоватым цветом и маркировкой GGP_C - архитектуры GAF-GAF-PDEase_I подтаксона Chordata.
    Дерево было построено с помощью программы Mega с использованием метода Maximum likelihood, укоренено в среднюю точку с помощью программы PHYLIP retree и раскрашено с помощью ITOL. Заметно, что, в основном, клады соответствуют доменным архитектурам. Ветвь, в которую укоренено дерево, соответствует разделению на доменные архитектуры. В кладе, соответствующей доменной архитектуре Pdease_I подсемейства соответствуют таксонам, а в кладе, соответствующей GAF-GAF-Pdease_I трудно проследить разделение на таксоны. Ссылка на дерево в формате Newick.

    Задание 3.

    Была выбрана клада на дереве, включающая последовательности: GGP_E_E2BNK0/726-960 GGP_E_E9IWT3/637-872 GGP_E_A0A088ADF4/716-950 GGP_E_Q7QB99/723-957 GGP_E_T1HTV2/539-772 GGP_E_PDE6/706-940 GGP_E_PDE6/742-976. С помощью программ пакета HMMER3 был построен профиль, а затем произведён поиск по файлу со всеми белками из Uniprot, содержащих выбранный домен. Результаты поиска с колонкой, принадлежит ли находка профилю представлены в этом файле.

    Рис. 2. ROC-кривая. Выбранный порог E-value - 4,60E-087 (красная точка), так как в этом месте достигается наибольшая разность (чувствительность - (1 - специфичность)) ~= 0.88. Соответственно, значения чувствительности и специфичности максимальны.
    Таблица 1. Характеристики профиля.
    принадлежит подсемейству не принадлежит сумма
    выше порога по профилю 54 148 202
    ниже порога 4 2633 2637
    сумма 58 2781 2839
    Чувствительность профиля при данном пороге - 0.93, специфичность - 0.947. Исходя из таких значений, можно предполагать, что профиль будет работать хорошо, поэтому его можно использовать для выделения подсемейства.

    Назад к странице четвертого семестра.


    © Aleksei Efremov, 2016