Эволюционные домены

Цель проекта: реконструировать эволюцию доменной архитектуры белков, содержащих один и тот же домен Pfam

Под непрерывной эволюцией будем понимать эволюцию последовательности, происходящую в силу незначительных изменений аминокислотной последовательности от поколения к поколению (и последующего отбора).

Эволюционные домены – это единицы непрерывной эволюции белков. Домены эволюционируют в составе белков, в том числе, однодоменных. Молекулярная филогения позволяет (до некоторой степени) восстановить непрерывную эволюцию домена.

В эволюции доменов происходят редкие события:

дупликации гена, следовательно, белка
пропажа гена, следовательно, белка
рекомбинация ДНК или иные события или мутации, приводящие к изменению доменного состава белка

Наша цель – попытаться реконструировать эволюцию доменной архитектуры выбранного домена

Филогения последовательностей домена позволяет реконструировать (с определенной точностью) родственные отношения между ними
Доменная архитектура белков в сравнении с филогенетическим деревом домена позволяет предположить в каких узлах произошло изменение архитектуры
Филогения видов, из которых получены белки, позволяет определить какие пары ветвей белков с одинаковой доменной архитектурой паралогичны, т.е. встречаются одновременно в одних и тех же видах

Далее поставили себе 6 задач, которые решали:

1. Выбрать домен. Описать доменные архитектуры белков, содержащих домен.

Выбираем домен:

AC: PF11612
ID: T2SJ
Функция домена: секреторный аппарат внешней мембраны E.coli
Ссылка на страницу домена в Pfam

Скачаем выравнивание из Pfam (Full) в JalView (File -> Fetch Sequences, выбираем БД, указываем AC семейства). Раскрасим по консервативности (ClustalX, By conservation, порог консервативности - 25). Добавим 3D структуру домена (в выравнивании найдем нужный Uniprot ID (Select -> find), свяжем последовательность с PDB кодом (щёлкнуть правой кнопкой мыши по ID, выбрать Structure -> Associate structure with sequence -> Enter PDB Id), покажем ее (View structure в том же меню)). Полученный проект по ссылке.

2. Выбрать две-три архитектуры, включающие этот домен

Получим таблицу с информацией об архитектуре всех последовательностей, содержащих выбранный домен. Для этого запустим: python swisspfam-to-xls.py -z swisspfam.gz -m pfam-AC.txt -o arch-s.xls (python swisspfam-to-xls.py -z ../../../../../../../srv/databases/pfam/swisspfam.gz -m pfam-AC.txt -o arch-s.xls). Полученный файл.

Составим список последовательностей с указанием доменной архитектуры. Для этого используем сводную таблицу в Excel: строки – AC последовательностей, столбцы – домены Pfam. И добавим в него колонки с информацией о таксономической принадлежности (cкачаем полные записи всех последовательностей (Uniprot -> Retrieve; введем список AC -> Retrieve; сохраняем flat text), получим таксономию (python uniprot-to-taxonomy.py -i flat-text.txt -o taxonomy.txt), перенесем полученную таксономию в основную таблицу с помощью ВПР (VLOOKUP)). Добавим колонку с длиной выбранного домена из каждой последовательности). Полученный файл.

В итоге выбираем архитектуры PF11612 (в сводной таблице выделен бордовым): N_methyl_2 (так же называется TS2J, но т.к. это название я буду использовать для второй выбранной архитекстуры, то использоваться будет только N_methyl_2) и TS2J.

3. Выбрать таксон и два его подтаксона для сравнения

Выбираем из таксона Bacteria подтаксоны:

Alphaproteobacteria (A)
Betaproteobacteria (B)

4. Выбрать не менее, чем по 15 представителей каждой из архитектур; для каждого подтаксона должно быть не менее 5 (4х) преставителей каждой архитектуры.

В колонке selected указаны выбранные последовательности. Последовательность GSPJ_PSEAE с известной 3D структурой домена PF13544 выделена выделена оранжевым (все известные 3D структуры относятся к Gammaproteobacteria, но я не стала брать этот подтаксон, т.к. он очень большой и хорошо проанализировать такое количество последовательностей в выравнивании не представляется возможным).

Выберем последовательности (в xls таблице есть отдельные списки):

	N_methyl_2 (зеленые)	TS2J (желтые)
Alphaproteobacteria	8	11
Betaproteobacteria	14	4 (больше просто нет)
Total	22+1(известная 3D)	15+1(известная 3D)

Для дальнейшей работы оставим только отобранные мной последовательности из всех выбранных архитектур. Для этого запустим python filter-alignment.py -i ali.fasta -m selected.txt -o ali-selected.fasta. Откроем "профильтрованное" выравнвание в JalView, проверим его, отредактируем и разметим полученное выравнивание (удалим пустые колонки (Edit -> Remove Empty columns), создадим группы, по одной на каждую архитектуру (выделить имена, правой кнопкой мыши по выделенным последовательностям -> Selection -> Group -> Edit name and description), зададим раскраску в каждой группе (Group -> Color -> ClustalX или BLOSUM62; затем Group -> Color -> By conservation и подберите порог)).

Но скрипт не работает :( Поэтому непонятно, вручную делала. Полученный fasta файл ali-selected-hand.fasta.

Откроем "профильтрованное" выравнвание в JalView, удалим пустные колонки (Edit -> Remove Empty columns), создадим архитектурные группы (Selection -> Group -> Edit name and description), зададим раскраску в каждой группе (Group -> Color -> ClustalX и Group -> Color -> By conservation с порогом 25), добавим разметку по вторичной структуре для GSPJ_PSEAE (3NJE). Очень плохое выравнивае. Полученный проект selected-ali.jar. В выравнивании удалены выбивающиеся последовательности.

5. Определить таксономию каждого представителя.

Сделаем имена последовательностей говорящими. Доменная архитектура N_methyl_2 - 1, TS2J - 2, Alphaproteobacteria - A, Betaproteobacteria - B.

6. Получить и, при необходимости, отредактировать совместное выравнивание всех отобранных последовательностей домена.

Полученный проект selected-hand-ali.jar. В выравнивании удалены выбивающиеся последовательности.

7. Филогенетическое дерево

Дерево получим в MEGA методом Neighbor-joining (метод, который не использует гипотезу о молекулярных часах и строит неукоренённое дерево) дерево. Рисунок:


Рис. 1. A) Дерево, построенное методом Neighbor-joining с подкреплением Bootstrap-анализа.	Б) Тоже самое дерево, только более наглядно.

Получили скобочную формулу.

Так как начальные ветви имеют минимальную поддержку, то сложно, что-то однозначно предполагать. Но по далее идущим ветвям можно строить какие-то предположения. Далее будем анализировать ветви, которые получили хорошую поддержку. Лиловым выделены ветви, которые имеют одинаковую архитектуру, и можно заметить что они принадлежат к одному таксону. Красным ветви, которые получили хорошую поддержку, но имеют разные архитектуры, что довольно необычно и сложно как-то нормально объяснить. Синим я выделила ветви, для которых можно заметить, что преобладает архитектура 1, встречается только один белок с доменной архитектурой 2, а т.к. эти ветви имеют значительную поддержку bootstrap, то можно предположить, что у этого белка (G0EZD9_CUPNN) эволюционно упростилась структура и возможно раньше была архитектура 1, т.к. архитектуры 1-N_methyl_2 и 2-TS2J различаются наличием в 1-N_methyl_2 домена одноименного домена - N_methyl_2.

Источники информации:

Сервер kodomo ФББ МГУ им. Ломоносова