Практикум 7. Реконструкция эволюции доменной архитектуры

Задание 1. Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой

Цель проекта: реконструировать эволюцию доменной архитектуры белков, содержащих один и тот же домен Pfam

Выбранный домен

CHASE

Краткая информация о доменах:

Домены как единицы непрерывной эволюции белков

Изменения последовательности белка в эволюции можно разделить на локальные и глобальные.

Локальные - это замены аминокислотных остатков, небольшие вставки и делеции.

Глобальные - это большие по числу аминокислотных остатков изменения последовательности белка, происходящие "одномоментно", при наследовании ДНК от одного предка к одному его потомку.

У белков проявляются
☆ делециями крупных фрагментов,
☆ слиянием двух последовательностей в одну (например, путем потери стоп-кодона между последовательными генами из одного оперона бактерии),
☆ крупными вставками из последовательности другого белка (путем рекомбинации ДНК),
☆ вставкой в кодирующую последовательность фрагментов некодирующей ДНК (например, удержанием интрона у эукариот путем потери сигналов сплайсинга),
☆ появление белка из другого организма (путем горизонтального переноса ДНК).
Последнее время некоторые авторы обосновывают идею о самозарождении генов белков из некодирующих последовательностей
( Ruiz-Orera et al., PLOS Genetics, 2015, Guerzoni, McLysaght, Genome Biol Evol., 2016 ).

Глобальное изменение последовательности белка имеет гораздо меньше шансов закрепиться у потомков. Но судя по последовательностям, шансы не нулевые.

Под непрерывной эволюцией будем понимать эволюцию белка, происходящую в силу локальных изменений аминокислотной последовательности от поколения к поколению и последующего отбора.

Эволюционные домены – это единицы непрерывной эволюции белков.

От существовавшей в далеком туманном прошлом предковой последовательности всех существующих последовательностей одного домена до наших дней в домене не было глобальных перестроек, только локальные изменения (по определению).

Поэтому молекулярная филогения позволяет (до некоторой степени) восстановить непрерывную эволюцию домена.

Домены эволюционируют в составе белков. Белок может быть однодоменным или содержать несколько доменов, иногда много. Из-за глобального изменения доменная архитектура белка-потомка может измениться по сравнению с предком.

Наша цель – реконструировать эволюцию доменной архитектуры выбранного домена

Реконструкция эволюции доменной архитектуры состоит в указании перестроек доменной архитектуры на ветвях филогенетического дерева домена Филогения видов, из которых получены белки, позволяет привязать изменения доменной архитектуры к эволюции видов (таксономии).

Краткое описание домена:

CHASE - это внеклеточный домен, который есть в трансмембранных белках-рецепторах как у эукариот, так и у бактерий. Его полное название — Cyclases/Histidine kinases Associated Sensory Extracellular. Было показано, что данный домен отвечает за связывание низкомолекулярных лигандов (таких как цитокинин-подобные производные аденина) или небольших пептидов и может опосредовать проведение сигнала в связанном с ним рецепторе.

ссылка на домен в Pfam

У выбранного семейства имеется 392 варианта архитектуры, представленных 1724 последовательностями из 890 видов. Первые семь архитектур по количеству последовательностей показаны на рисунке ниже.

Рис.1. Первые 7 архитектур


Исходя из рисунка, видно, что доменные архитектуры бывают совершенно разные: так, в белках с доменом CHASE могут присутствовать и другие домены: EAL, PAS_3, GGDEF и проч. Для дальнейшей работы были выбраны две следующие доменные архитектуры: [CHASE, GGDEF] и [CHASE, HisKA, HATPase_c, Response_reg].

Описание 2 доменных архитектур:

1 домен

☆ [CHASE, GGDEF]

Рис.2. 1 домен

☆ Число последовательностей - 156

☆ Храрактеристика сторонних доменов:
GGDEF (PF00990) — дигуанилат-циклаза, синтезирующая ц-ди-ГМФ, внутриклеточную сигнальную молекулу множества бактерий.

2 домен

☆ [CHASE, HisKA, HATPase_c, Response_reg]

Рис.3. 2 домен

☆ Число последовательностей - 263

☆ Храрактеристика сторонних доменов:
HisKA (PF00512) — фосфоакцепторный домен гистидин-киназ, являющихся ключевым элементом двухкомпонентной системы трансдукции сигнала, контролирующей такие сложные процессы, как, например, инициация развития микроорганизмов;
HATPase_c (PF02518) — домен с АТФазной активностью, найденный в гистидин-киназах, ДНК-гиразе b, топоизомеразах и в белках теплового шока Hsp90 (относящихся к шаперонам);
Response_reg (PF00072) — домен, воспринимающий сигналы, входящий в состав двухкомпонентной системы и располагающийся ближе к N-концу от ДНК-связывающего эффекторного домена.

При помощи следующей команды была получена информация об архитектуре всех последовательностей, содержащих CHASE-домен:

python swisspfam-to-xls.py -w -i /srv/databases/pfam/swisspfam.gz -p PF03924 -o architectures.xls

После этого из этой выдачи с использованием Uniprot / Retrieve была получена информация с таксономией:

python uniprot-to-taxonomy.py -i uniprot.txt -o taxa.xls

Информация, полученная в ходе работы, была скомбинирована в общую сводную таблицу (лист называется pivot). В этой таблице указаны последовательности, их доменные архитектуры, таксономии и длины CHASE-домена. Для дальнейшей работы была использована клада Proteobacteria с двумя её подгруппами — alpha-протеобактериями и beta-протеобактериями (в таблице обозначены как A и B).

Протеобактерии — очень интересная группа бактерий. Так, известно, что alpha-протеобактерии дали начало всем митохондриям эукариот. Это доподлинно известно: так, если построить дерево различных бактерий и митохондрий эукариот (например, по генам 16S рРНК), то будет видна монофилия альфа-протеобактерий и митохондрий. Бета-протеобактерии менее интересны в плане симбиозов, но тоже представяют достаточно крупную группу с разнообразными бактериями — как гетеротрофами, так и фото- и хемоавтотрофами.

ссылка на таблицу

Задание 2. Построить филогенетическое дерево последовательностей ДОМЕНА (а не полноразмерных белков)

Для выполнения задания были выбраны определённые последовательности, которые представлены в той же Excel-таблице на листе chosen. После было построено множественное выравнивание. Из общего выравнивания были удалены плохо выравнивающиеся и короткие последовательности. Изображение выравнивания представлено ниже.

ссылка на выравнивание

Рис.4. Выравнивание

Рис.5. Филогенетическое дерево

ссылка на дерево

В целом этому дереву, скорее, можно доверять, чем нельзя: видно достаточно много нетривиальных ветвей (причём порой достаточно крупных), состоящих из исключительно представителей какой-то определённой группы. Однако есть и менее однозначеные клады: их существование можно объяснить двумя факторами. Во-первых, в целом дерево получается с достаточно маленькой бутстреп-поддержкой, особенно в подобных спорных моментах, поэтому только опираясь на него говорить о каких-либо высоковероятных родственных отношениях нельзя. Во-вторых, для бактерий характерен горизонтальный перенос генов, благодаря которому генетический материал может распространяться не только «вертикально», то есть от особи к её потомкам, но и между дальнородственными видами.

Если же говорить об эволюции именно доменов, то какой-то чёткой кластеризации по разным архитектурам не замечается, по данному дереву сложно сказать о небольшом количестве каких-то дискретных преобразований, которые бы привели к различным архитектурам. Возможно, что сходство обусловлено конвергенцией, но говорить об этом тоже сложно.


© Cherkashina Anastasia 2018