Реконструкция эволюции доменной архитектуры

Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой

Для выполнения задания я выбрала домен Hydrolase_2 (ID: Hydrolase_2, AC: PF07486). Этот домен найден у 1124 видов в составе 2385 последовательностей белков, и всего для него известно 45 архитектур. 3D структура определена для 3 последовательностей.
Список доменных архитектур можно посмотреть здесь.
Эти белки участвуют в процессе гидролиза клеточной стенки (в частности у Bacillus subtilis).

С помощью Jalview из Pfam(Full) (команда fetch) было скачано выравнивание доменных участков всех белков, содержащих домен Hydrolase_2 (окраска ClustalX). В выравнивании явно выделяется высококонсервативная область - наш домен. Также была добавлена 3D структура одной последовательности. Для этого последовательность Q81PQ3_BACAN была связана с PDB кодом 4FET. В разделе structures указано, что в данной структуре содержится 2 идентичных цепи, каждая из которых представляет собой домен Hydrolase_2. Выравнивание и структуру можно посмотреть по ссылке на проект или fasta-файл

Из данных архитектур были выбраны 2.

Описание выбранных доменных архитектур, включающих домен Hydrolase_2
Доменный составЧисло последовательностейИзображение
1Hydrolase_2 + LysM, связанный с деградацией бактериальной клеточной стенки131
2Hydrolase_2 + PG_binding_1 - домен, связывающий пептидогликан405

Чтобы получить информацию об архитектуре всех последовательностей, содержащих мой домен, был использован скрипт swisspfam-to-xls.py, который преобразует информацию о доменах в последовательности из файла swisspfam в таблицу для Excel. Файл swisspfam для всех последовательностей Uniprot скачан на kodomo. Чтобы получить информацию конкретно для моего домена, в качестве параметра -p был указан необходимый Pfam AC.
Использованная команда:

 python swisspfam_to_xls.py -z /srv/databases/pfam/swisspfam.gz -p PF07486 -o arc.xls

Затем для всех идентификаторов из таблицы были скачаны соответствующие последовательности (Uniprot → Retrieve) в формате Text, для которых была получена таксономия с помощью скрипта uniprot_to_taxonomy.py:

python uniprot-to-taxonomy.py -i all.txt -o taxonomy.xls
Полученная информация по таксономии была перенесена в первую таблицу с помощью команды ВПР (MS Excel).

В качестве таксона было выбрано царство Firmicutes, а в качестве двух подтаксонов — Bacilli (сокр. B) и Clostridia (сокр. С). Последовательности из данных подтаксонов с выбранными архитектурами представлены на отдельном листе Excel-файла (не менее 10 представителей архитектуры в каждом подтаксоне).

Итоговый файл: arc.xlsx

Выбранные последовательности были отобраны из общего выравнивания со всеми последовательностями, включающими домен PF07486, с помощью скрипта filter-alignment.py:

python filter-alignment.py -i align.fasta -m listofac.txt -o filtered.fasta -a '_'
Где listofac.txt - файл со списков идентификаторов выбранных последовательностей. Опция -i нужна для указания входного файла с выравниванием в fasta формате, опция -m нужна, чтобы задать файл с идентификаторами или AC последовательностей (должны совпадать со входным файлом), опция -o задает файл вывода, и опция -a позволяет задать символ разделителя.

Выделенные последовательности были выровнены, названию каждой последовательности в соответсвии с типом ее группы был присвоен свой идентификатор (B1 - Bacilli с первой указанной архитектурой, С2 - Clostridia со второй в таблице архитектурой и т.д.)
Ссылка на проект и выравнивание.

Построить филогенетическое дерево последовательностей домена

На основе выравнивания, содержащего последовательности общего для всех представителей домена, в программе MEGA методом Neighbour Joining было построено филогенетическое дерево. Для подтверждения достоверности ветвей применялся Bootstrap тест со 100 репликами. Изображение дерева было отредактировано с помощью сервиса ITOL. Клады, включающие только представителей Bacilli, были окрашены оранжевым, представителей Clostridia - синим. Листья с представителями архитектуры 1 покрашены черным, а архитектуры 2 - фиолетовым. Ссылка на скобочную формулу дерева.

Изображение дерева, построенного в MEGA, с бутстреповой поддержкой Переукорененное программой retreet (обработанное в iTOL) дерево

Дерево легко делится на клады по таксонам, однако доменные структуры не образуют четких монофилетических групп. Поэтому судить о ходе доменной эволюции трудно. Возможно эти архитектуры возникали несколько раз независимо.

Назад
На главную



© Кучеренко Варвара 2015