Эволюционные домены

Для выполнения заданий данного практикума был взят домен Amidase_3 (ID в базе данных PFAM: PF01520). Это домен белков N-ацетилмурамоил-L-аланиновых амидаз, которые режут связь между остатками N-ацетилмурамоила и L-аминокислотных остатков в определённых гликопротеидов клеточной стенки.

Были выбраны две архитектуры белков, содержащих данный домен: архитектура, содержащая только домен Amidase_3, и архитектура, содержащая два домена: Amidase_3 и SPOR. Как выяснилось, все архитектуры, содержащие данный домен находятся или в бактериях, или в вирусах, поэтому для построения дерева были выбраны эти два таксона. Примеры белков, принадлежащих данным архитектурам, можно увидеть на рисунке 1.

примеры структур белков Рис. 1. Структуры белков, представляющие выбранные архитектуры, ID в базе данных PDB: 3CZX, 3QAY, 3NE8, 1XOV

Для построения филогенетического дерева было выбрано 62 белка так, чтобы каждой архитектуры в каждом из таксонов было представлено поровну. Белки, принадлежащие первой (1 домен) или второй (2 домена) архитектурам, обозначали соответственно 1 и 2, белки, принадлежащие вирусам или бактериям, соответственно "v" и "b". Файл, содержащий информацию об этих записях, можно скачать по данной ссылке. Скобочную формулу дерева можно скачать по данной ссылке, а файл проекта jalView по этой. Полученное дерево показано на рисунке 2.

Древо Рис. 2. Дерево, построенное на основе полученных выравниваний. Цветами выделены хорошо выделяющиеся классы.

По полученному дереву видно, что данные белки довольно хорошо группируются по архитектурам и таксонам. Используя это дерево, также можно попробовать сделать некоторые выводы о ходе эволюции данных белков: сначала были бактерии с архитектурой 1, включающую в себя только 1 домен амидазы (зелёная ветвь), затем ген этого белка попал в геном бактериофагов (оранжевая ветвь). Затем в геноме бактерий появился, возможно, был перенесён бактериофагами (фиолетовая ветвь), ген домена SPOR, составляющий вторую часть второй архитектуры (тёмно-жёлтая ветвь), который затем вторично был приобретён бактериофагами (голубая ветвь).

Для построения ROC-кривой была выбрана ветвь, отмеченная на рисунке 2 зелёным. По полученным с помощью пакета программ HMMER 2.3.2 была построена ROC-кривая, показанная на рисунке 3. Профиль для данных последовательностей можно скачать по следующей ссылке.

ROC-кривая Рис. 3. ROC-кривая для выбранного семейства.

Найденный порог чувствительности равен 2,7e-99. Соответствующие ему значения правильно/неправильно определённых величин показаны в таблице 1. Скачать таблицу с расчётами для ROC-кривой можно по этой ссылке.

Таблица 1. Результаты поиска по профилю с порогом 2,7E-99.
на самом деле приналежит семейству не приналежит семейству сумма
Выше порога по профилю 9 986 995
Ниже порога по профилю 6 6272 6278
Сумма 15 7258 7373
© Демкив Андрей 2013 Дата последнего изменения: 29.05.2015