Реконструкция эволюции доменной архитектуры


1. Выбор семейства доменов
Был выбран домен под названием Ufd2P_core (AC домена в Pfam: PF10408). Этот домен представляет собой наиболее консервативную часть корового участка Ufd2P - фактора элонгации убиквитиновых цепочек, также называемого E4. Этот домен найден у 784 видов в составе 1289 белковых последовательностей, для него известно 34 архитектуры. Ссылка на страницу домена на сайте Pfam
Из Pfam через JalView было скачено выравнивание для семейства доменов, затем раскрашено по консервативности (ClustalX).
Скачать проект, выравнивание в fasta-формате

2. Выбор архитектур
Я выбрала две архитектуры: Ufd2P_core (далее - архитектура I) и Ufd2P_core x 2, U-box (далее - архитектура II), найденные в 115 и 51 последовательностях соответственно. Они представлены на рисунках 1 и 2.
Во второй архитектуре коровая часть ассоциированна с С-концевым доменом U-box, который имеет лигазную активность.
При помощи скрипта swisspfam_to_xls.py были отобраны последовательности с исследуемым доменом из файла /srv/databases/pfam/swisspfam.gz, содержащего информацией об архитектуре всех последовательностей:
python swisspfam-to-xls.py -z -i swisspfam.gz -p PF10408 -o PF10408.xls
Затем при помощи Excel была получена сводная таблица с информацией об архитектурах последовательностей, содержащих домен. Последовательности для идентификаторов белков были скачаны в текстовом формате с Uniprot. Для них была получения таксономия с помощью скрипта uniprot_to_taxonomy.py:
python uniprot-to-taxonomy.py -i uniprot.txt -o taxonomy.xls
Для дальнейшей работы был выбран таксон Metazoa и два его подтаксона: Ecdysozoa (далее - E) и Chordata (далее - C).
Таксон Metazoa объединяет многоклеточных животных. Подтаксон Ecdysoxoa или Линяющие (E) - группа первичноротых животных, к которым относятся Panarthropoda, Nematoida и Scalidophora. Свое название Ecdysozoa получили за наличие характерной сбрасывемой во время линьки кутикулы. Chordata или Хордовые (C) - тип вторичноротых животных, для которых характерно наличие энтодермального осевого скелета в виде хорды, которая у высших форм заменяется позвоночником.
Было выбрано по 26 последовательностей из каждой архитектуры (таблица №1), то есть всего 52.
Итоговая excel-таблица

Рис. 1 Изображение дерева, полученное после выравниания Рис. 2 Изображение дерева, полученное после выравниания
Таблица №1
Выбранные последовательности
E C
I II I II
A0A085LJD8 A0A016UWE9 A0A087VD54 A0A087QHG0
A0A085MQG9 A0A026WCX2 A0A091LP45 A0A087QL55
A0A085MRW1 A0A026WSP6 A0A093J0V9 A0A087VKJ0
A0A0B1TUQ1 A0A044QNP6 A0A099Z946 A0A087X8P2
A0A0C2C328 A0A067QFP8 A0A0D9S8P1 A0A087YCR4
A0A0C2C5V9 A0A067QPB5 C3XUA6 A0A091DJ10
A0A0J7KE56 A0A077ZD73 E9Q442 A0A091EUY8
A0A0J7MYK6 A0A084VP75 F1RIG2 A0A091FFQ8
A0A0K0D4I5 A0A087UQ76 F6S120 A0A091G7W9
A0A0N1PH09 A0A088A119 F7H4D7 A0A091GNC1
A0A0N4UK13 A0A088A3N0 G3UZD6 A0A091IDF9
A0A0V0S834 A0A090KZD9 G3W391 A0A091IJJ2
A0A0V0S852 A0A0C2CTS6 H2Y6J6 A0A091IV08

3. Анализ выравнивания и таксономии
С помощью скрипта filter_alignment.py я отобрала только выбранные последовательности из двух архитектур, закодировав названия следующим образом: !!_XXXXXX вместо XXXXXX_YYYYY/ddd-ddd, где !! может быть E1, что соответствует архитектуре I у Эукариот, E2 - архитектуре II у Эукариот, C1 и C2 - архитектурам I и II у Линяющих, соответственно. Из выравнивания были удалены пустые колонки, и созданы две группы архитектур (I и II) с раскраской ClustalX.
Скачать проект Jalview, выравнивание в формате fasta
Из выравнивания были удалены следующие последовательности: C1_C3XUA6, E1_A0A0J7MYK6, C1_E9Q442, C1_F6S120, E1_A0A085LJD8, E1_A0A0C2C328, E1_A0A0K0D4I5, E1_A0A0N4UK13, C1_A0A087VD54, E1_A0A0B1TUQ1, E1_A0A085MRW1, C1_A0A091LP45, из-за малой длины. Затем в программе MEGA было построено дерево методом Neighbor-joining. Дерево представлено на рисунке 3.
Дерево в скобочной форме

Рис. 3 Полученое дерево (NJ)

Как видно на дереве, произошло некоторое разделение на клады по таксонам, а доменные архитектуры не образуют монофилетических групп. В общем, по такому дереву сложно судить о числе и виде перестроек доменной архитектуры.