t4_pr11

Практикум 11. Реконструкция эволюции доменной архитектуры.

Примечание: я выполняла задания "Варианта 2". Ссылка на страницу с условиями заданий.

1. Выбор семейства доменов.

На сайте Pfam можно увидеть список всех имеющихся в базе семейств доменов:

Для выполнения задания было выбрано семейство доменов c ID = ADAM-CR (расшифровывается как A Disintegrin And Metalloproteinase cysteine-rich), AC = PF08516. ADAM - заякоренные в мембране белки, которые протеолитически изменяет поверхность клетки и внеклеточного матрикса, тем самым влияя на поведение клетки, ADAM-CR - один из доменов этих белков, регулирующий их активность.

На сентябрь 2019 к этому семейству доменов относится 2970 последовательностей средней длиной 113 аминокислот, галочка стоит в колонке "наличие 3D структуры" (наличие структуры PDB в базе, так-то каждый белок имеет 3D структуру). На странице самого семейства указано, что к нему относятся 83 архитектуры, 27 структур, а уже упомянуты е 2970 последовательностей относятся к 311 видам, и все эти виды эукариотические.

Выравнивание всех последовательностей, открытое в JalView, выглядит характерно: довольно много очень консервативных столбцов, а между ними длинные индели за счёт того, что у какого-то белка из трёх тысяч в этом месте вставка. За счёт этого выравнивание получается в 4 раза длиннее заявленных средних 113 аминокислот.

Выравнивание было раскрашено по консервативности, к нему было добавлена структура, соответствующая последовательности ADA22_HUMAN с pdb_id = 5Н2Z.

2. Выбор архитектур.

Первая из двух выбранных архитектур (изображение на левом рисунке ниже) - Disintegrin, ADAM_CR. Такой архитектурой обладают 74 последовательности. Как следует из названия, в ней содержатся 2 домена: первый - это ADAM_CR, второй - Disintegrin (это семейство коротких белков - ингибиторов интергин-зависимой клеточной адгезии, входит в состав некоторых ядов гадюк).

Вторая выбранная архитектура (правый рисунок ниже) - уже пятидоменная, называется Pep_M12B_propep, Reprolysin, Disintegrin, ADAM_CR, EGF_2. В неё входят те же два домена и три новых. Такой архитектуре соответствуют 264 последовательности. Reprolysin - семейство цинк-зависимых металлопептидаз, входит в состав некоторых ядов гадюк, но встречается и у млекопитающих, в том числе у человека это белок, предположительно вовлечённый в выход лейкоцитов в ткань из капилляров.

"Pep_M12B_propep" расшифровывается как Reprolysin family propeptide, т.е. содержит пропептиды (предшественники) доменов из предыдущего семейства репролизинов. EGF-like domain очень консервативный, встречается в очень разных белках, объединяет их то, что они заякорены в клеточной мембране, а этот домен находится с внешней стороны.


Рис.2. Первая доменная архитектура.	Рис.3. Вторая доменная архитектура.

С помощью скрипта (все скрипты даны на странице и никак не модифицировались) была получена таблица с последовательностями домена PF08516, чтобы далее из таблицы можно было выбрать строки, соответствующие двум выбранным архитектурам. Были выбраны следующие параметры: -z означает, что входные данные подаются в сжатом виде (файл swisspfam.gz), параметр -р указывает, последовательности какого домена нужны, параметр -о задает имя таблицы с результатами. Запущенная команда:

 	python swisspfam-to-x/swisspfam.gz -p PF08516 -o PF08516.xlsx

Ссылка на полученную таблицу.

По полученной таблице была построена сводная таблица (строки – AC последовательностей, столбцы – домены Pfam). После чего по сводной таблице были выбраны последовательности, соответствующие выбранным архитектурам и записаны их АС Фильтрация проводилось инструментами LibreOffice.

3. Выбор таксона и подтаксонов.

Для полуучение информации о таксономической принадлежности последовательностей сначала были скачаны полные записи всех последовательностей. Для этого список выбранных ранее АС бы загружен в Uniprot - Retrieve и сохренен в текстовый файл, содержащий полные записи нужных последовательностей (в формате Uniprot).

Далее был использован скрипт, добавляющий информацию про такнсномию из этого файла в экселевскую таблицу. Запущен строкой:

	python uniprot_to_taxonomy.py -i uniprot_retrieve.txt -o taxon.txt

Полученные данные (полученная таблица) были добавлены к основной таблице с помощью функиции VLOOKUP (из пакета LibreOffice).

В качестве подтаксона таксонов Metazoa были выбраны типов Ecdysozoa и Chordata, от каждого домена было взято по примерно 15 белков внтури каждого из двух подтаксонов.

Итоговый файл-таблицу можно посмотртеть тут.

Полученные последовательности были переименованы , X - первая архитектура (двухдоменная), Y - вторая (пятидоменная); после буквы через черту идёт скоращение от таксона - Ecdys или Chord. и загружены в Jalview. В полученном выравнивании были удалены пустые столбцы.

4. Построение филогенетического дерева домена.

Дерево строилось по итоговому выравниванию (ссылка на проект проект (.jvp)). Для построения дерева в программе MEGA-X выравнивание было экспортировано в формат fasta. Дерево было построено алгоритмом Maximum Likelihood с бутстреп-поддержкой в 1000 реплик.

Скобочную формулу дерева (в MEGA export > newick) можно посмотреть здесь, на ветвях оставлены цифры - бутстреп-поддержка, т.к. часть ветвей получилась ненадёжной.

Рисунок 4. Филогенетическое дерево, построенное в программе MEGA.

Интерпретация дерева. По дереву, построенному по одному домену, присутствующему в нескольких (в данном случае двух) доменных архитектурах, можно сделать вывод о том, какое разделение произошло раньше: разделение на таксоны (линяющие и хордовые) или разделение на доменных архитектуры. На данном дереве видны несколько крупных клад, в которых встречается почти только одинаковые доменные архитектуры (клады, содеражащие в основном домены из архитектуры "Х", заключены в зелёные прямоугольники, клады, содержащие в основном домены из архитектуры "Y" - в оранжевые). Ветви, где это не так (т.е. рядом расположены домены из разных архитектур), часто имеют низкую бутстреп-поддержку.

При этом часто встречаются на близких ветвях встречаются домены из разных таксонов. Из-за низкой поддержки некоторых даже крупных клад нельзя определить точно, но я бы предположила, что сначала произошло деление на доменные архитектуры (у общего предка двух подтаксонов), а потом - разделение на линяющих и хордовых. Хотя этому выводу противоречит то, что большие клады со второй доменной архитектурой (два оранжевых прямоугольника) встречаются в разных "концах" дерева, как будто разделение на домены происходило дважды...

Вернуться на страницу семестра

Вернуться на главную