Учебный сайт Софроновой Алины
Восстановление предкового состояния доменной архитектуры

        Для работы в этом задании был выбрано семейство доменов AstE_AspA (идентификатор PF04952). Данный домен был найден в белке сукцинилглутамат десукцинилаза/аспартоацилаза (succinylglutamate desuccinylase/aspartoacylase) из генома бактерии Shewanella frigidimarina штамм NCIMB 400. Он катализирует пятый и последний шаг катаболизма аргинина.

        было найдено 14 архитектур, включающих данный домен. Были выбраны первые две доменный архитектуры, так как они представлены в наибольшем количестве последовательностей (2705 в первой и 50 во второй), остальные доменные архитектуры содержат по 3 и менее последовательностей. Первая архитектура содержит только анализируемый домен ("1" в маркировке), вторая содержит удвоенный домен AstE_AspA ("2" в маркировке). Выравнивание всех доменов можно посмотреть в проекте Jalview здесь. Раскраска ClustalX и By conservation с порогом консервативности 20%.

        В качестве общего таксона был выбран Proteobacteria, а подтаксонами выбраны Gammaproteobacteria ("G" в маркировке) и Alphaproteobacteria ("A" в маркировке).

        Таблица excel с указанием наличия доменов, таксономии и выборкой белков для работы доступна здесь (Вся нужная информация содержится на листе "Итог", информация про выбранные последовательности на листе "Выбранные последовательности").

        Выравнивание доменов для выбранных последовательностей можно посмотреть здесь. Раскраска ClustalX и By conservation с порогом консервативности 70% и 20% для первой и второй архитектуры соответственно. Были удалены явно неправильно выравненные последовательности, так же были удалены плоховыравненные С- и N- концевые участки.

        На основе выравнивания программой MEGA и алгоритмом Neighbor-Joining было построено дерево (Рис.1). Скобочную формулу дерева можно посмотреть здесь.


Рис.1. Дерево, построенное на основе выравнивания выбранных последовательностей. Построение осуществлялось программой MEGA и алгоритмом Neighbor-Joining.

        Синим на дереве изображена клада, в которой представлены только последовательности второй архитектуры, хотя она и не включает в себя абсолютно все последовательности со второй архитектурой. Внутри этой клады встречаются клады содержащие только последовательности гаммапротеобактерий (например, выделенные розовой рамкой). Встречается клада, где все последовательности относятся к гаммапротеобактериям, но представлены как в виде первой, так и в виде второй архитектуры (фиолетовый цвет). Присутствет клада, где последовательноти относятся или к альфапротеобактериям с первой доменной архитектурой (зеленый цвет), или к гаммапротеобактериям со второй доменной архитектурой (темно-красный). В остальных кладах последовательности относятся к разным таксонам и разным архитектурам. Очень редко встречается маркировка "2 A", что говорит о том, что у альфапротеобактерий удвоения домена не происходило. Дерево не распадается четко на ветви, принадлежащие к одному таксону, поэтому говорить что либо об эволюции последовательностей трудно.

        Интересно, что так как домен был удвоен у части последовательностей, то в дереве одна и та же последовательность встречается 2 раза. Если для некоторых последовательностей (желтая рамка) домены эводюционировали сходным образом, то для некоторых(оранжевая рамка), вероятно, домены эволюционировался различно.

        В качестве подсемейства были выбраны последовательности в розовой рамке (Рис.1). Все они относятся к гаммапротеобактериям и второй доменной архитектуре. Для построения профиля был использован пакет HMMER, результат можно посмотреть здесь. При помощи Excel (лист "ROC-кривая") была построена ROC-кривая (Рис.2) и заполена Таблица 1 (порог e-value - 4,00E-20).


Рис.2. ROC-кривая для выбранного подсемейства.

Таблица 1.Результат профиля для e-value 4,00E-20.

На самом деле принадлежит подсемейству не принадлежит подсемейству сумма
Выше порога по профилю 16 193 209
Ниже порога 2 846 848
Сумма 18 1039 1057

        Площадь под графикам достаточно большая, поэтому данный профиль можно использовать для классификации.



Вернуться к 4 семестру

© Алина Софронова, 2015
Дата последнего изменения: 12.03.2015