Реконструкция эволюции доменной архитектуры.

Теоретическое введение:

Целью данной работой была реконструкция эволюции доменной архитектуры белков, содержащих один и тот же домен Pfam. Для реализации проекта был выбран один из доменов изучаемого в первом семестре белка 4-альфа-глюкотрансферазы. Список доменов данного белка представлен на странице проекта EMBL-EBI, подходящий кандидат выбран по заявленным критериям (в семействе Pfam не более десяти тысяч последовательностей не более чем 1200 видов, домены семейства входят несколько доменных архитектур, для тех известно несколько 3D структур).

Таблица 1. Информация о домене

AC, IDhGDE_central, PF14702
Функция домена
Это центральный домен эукариотического варианта фермента, уменьшающего ветвистость гликогена (glycogen debranching enzyme - GDE). Эукариотический GDE выполняет две функции: 4-альфа-D-глюканотрансферазную и амило-альфа-1,6-глюкозидазную, выполняемую соответственно N- и C-концевыми доменами эукариотического фермента GDE. Центральный домен GDE следует за глюканотрансферазным доменом (GDE_C) и предшествует глюкозидазному (GDE_N). По аналогии с бактериальными GDE, этот домен должен быть вовлечен в субстратное связывание либо для N-концевой глюканотрансферазы, либо для C-концевой глюкозидазы, если не для той или другой разом.
Количество архитектурКоличество последовательностейКоличество видовКоличество визуализированных структур
437176054
http://pfam.xfam.org/family/PF14702

Список сорока трёх доменных архитектур данного домена так же представлен по соответствующей ссылке:
http://pfam.xfam.org/family/PF14702#tabview=tab1

Практическая реализация

Выравнивание и 3D структура

Скаченные из Pfam выравнивания PF14702_full.txt были заружены в JalView и покрашены по BLOSUM62 c порогом консервативности 10. Выравнивание доступно по ссылке/.

Впоследствии была добавлена 3D структура белка 5D06 = Q6FSK0_CANGA остатков 727 - 967. При просмотре в JAlView, PDB id доступен по череде ссылок 'щёлкнуть ID' -> 3D Structure Data в таблице вида Таблица 2 во втором столбце:

Таблица 2.Found structures summary
Q6FSK0_CANGA5d06Crystal Structure of the Candida Glabrata Glycogen Debranching Enzyme (E564Q) in complex with maltopentaoseX-ray diffraction3.3PF14702, PF14699, PF06202, PF14701hGDE_central, hGDE_N, GDE_C, hDGE_amylase
И то же самое для ворой струкуры под этим ID - 5d0f.
Визуализация структуры в веб-апплете Jmol на странице EMBL.

Работа с доменными архитектурами

Список всех архитектур представлен на соответствующей странице EMBL-EBI. Всего архитектур, насчитывающих более 20 последовательностей, оказалось четыре. Самая полная архитектура насчитывает 494 последовательности и представляет из себя 4 домена, все вышеперечисленные в функции фермента, поэтому брать мы его не будем - это не интересно.

Рисунок 1. Самая полная доменная архитектура

Ниже - визуализация рассмотренных архитектур. В первой присутствуют амилазный, центральный и с-концевой домены из пятидесяти двух структур, во второй - исключительно неполный фрагмент центрального домена, встречающийся в двадцати структурах.

Рисунок 2. Выбранные доменные архитектуры

Формирование сводной таблицы по последовательностям с исследуемым доменом

C помощью скрипта swisspfam-to-xls.py расположенном на сервере в открытом доступе, информация о доменах в последовательностях из файла swisspfam.gz, загруженном на kodomo, была транспонирована в таблицу Excel по идентификатору Pfam AC - PF14702. Ниже представлена команда:
python swisspfam-to-xls.py -i /srv/databases/pfam/swisspfam.gz -z -p PF14702 -o PF14702.xls
Адрес swisspfam на kodomo указан по умолчанию. Сохраняются данные о последовательностях, содержащих хоть один из указанных доменов. Опция -z позволяет работу с заархивированным файлом. Сводная таблица доступна по ссылке PF14702.xlsm.

C применением фильтров были выделены AC последовательностей, содержащих данные доменные архитектуры - доменов насчитывается 717, притом, что последовательностей оказалось всего 700. Для каждого из 700 AC из базы Uniprot по ID была скачена с помощью следующего скрипта и обработана в таблице Excel информация о белках:
python uniprot-to-taxonomy.py -i uniprot.txt -o taxonomy.xls
. В итоге обощённая информация представлена на предпоследнем листе представленной в отчёте таблицы - "all_tab", а вся информация о доменах в изученных доменных структурах в "final_tab".

Работа с таксонами

Из сводной таблицы была составлена таблица, как уже было сказано выше, содержащая AC последовательностей в изучаемых доменных архитектурах. Там же содержится информация по такосномии и длине белковых подуктов. Среди данных представителей были выбраны последовательности, относящиеся к таксону Eukaryota - к сожалению, из нижележащих таксонов более 20 последовательностей имело только Metazoa, потому к двум изученным архитектурам была добавлена первая - самая полная, с наибольшим количеством последовательностей(494). В третью архитектуру включены N-концевой домен, амилаза, центральный домен и С-концевой. О них было рассказано в ранее - PF14699, PF14701, PF14702 B PF06202, соответственно. Таксоном обозначили всё те же Eukaryota, подтаксонами - Fungi и Metazoa. Eukaryota - царство ядерных организмов, стоящее в одной линейке с археями и бактериями, подтаксонами - Fungi и Metazoa, настоящие грибы и настоящие многоклеточные. Выбрали по 20 представителей каждой из архитектур; для каждого подтаксона наличиствует не менее 10 представителей каждой архитектуры. В таблице выбранные последовательности на последнем листе покрашены в красный и вынесены на отдельный лист - chosen_tab. Последовательность, имеющая 3D визуализацию, тоже была добавлена в выборку. Ниже приведены данные про неё, взятые из самой полной таблицы про эту последовательность:
Таблица 3. Информация по невошедшей последовательности
Sequence_IDSequence_ACSequence_lengthPfam_ACFromTo Pfam_seq_numDescription
Q6FSK0_CANGAQ6FSK01528PF06202103715171981Amylo-alpha-1,6-glucosidase

Из исходного выравнивания были получены выбранные последовательности с помощью следующей команды, скрипта на kodomo в общем доступе, и файла, содержащего AC из листа chosen_tab:
python filter-alignment.py -i phah.mfa -m chosen.txt -o phah_selс.mfa -a "_"
Файл выдачи phah_selс.mfa подвергся анализу, пустые гэпы в начале и в конце выравнивания были вырезаны, последовательности, сильно выбивающиеся из выравнивания, так же были обнаружены и удалены, имена последовательностей были изменены с указанием знака подтаксона. Для каждой выбранной доменной архитектуры группы были выделены окрасками - BLOSUM и CLUSTAL для первой и второй соответственно. Список последовательностей, оставленных для построения дерева, доступны тут.

Порог консервативности, несколько изменился с прошлого случая, 15 на этот раз, в верхней половине выравнивания - первая архитектура, во второй - третья, наиболее полная. Выравнивание доступно в html формате ниже, кликнув на изображение, или по ссылке в проекте.


Рисунок 3.Выравнивание

Некоторая легенда касательно выравнивания - в первой группе консервативных позиций намного больше при равном уровне консервативности, хотя в обоих группах довольно гэпов. В остальном, если смотреть насквозь, то в обоих группах довольно консервативных позиций на обе группы - например, позиции в блоках с 400-x по 500-е. Когда как в первой группе намного более консервативны десять позиций с 230 по 240 или с 82 по 90, нежели во второй группе. Таким образом, по общей картине выравнивания можно судить о том, что оно правильное. Что касается добавленной для сравнения последовательности Q6FSK0, имевшей 3D структуру, она хорошо встраивалась в выравнивание по основным блокам, имела те же консервативные позиции, что и большинство последовательностей, указывая на консервативность структур в целом.

Построение филогенетического дерева

Из проекта был получен fasta-файл, после обработки названий python-скриптом, мнемоника каждого на дереве представляет из себя выражение:
[13]_[MF]_AC
, где первая цифра - указание группы архитектуры, M или F - указание принадлежности к таксону Metazoa или Fungi, AC - sequence AC последовательности в банке Uniprot. Последовательность Q6FSK0, соответственно, маркера группы не имеет, только указание на вид.

Рисунок филогенетического дерева домена представлен на изображении ниже. Сконструировано дерево с помощью алгоритма Neighbour-Joining, с проверкой bootstrap на 100 копий. Ветви раскрашены по принадлежности к архитектуре и к таксону, таксоны так же обозначены. Далее следует изображение bootstrap-дерева, которое ставит вопрос о валидности нашего дерева.

Рисунок 4. Деревья - собственное построение и bootstrap
Скобочная формула дерева:
(((((((((1_M_A0A0B2V6Z8,1_M_A0A158PN69),(1_M_A0A0N4VFZ0,1_M_A0A0N5AQW6)),1_M_A0A0N4UM20),(1_M_A0A044QLY7,1_M_
A0A0R3RER8)),(3_M_A0A158PC84,(3_M_A0A158QX09,(1_M_A0A016T824,(1_M_A0A016T905,1_M_A0A016T8T2))))),(1_M_A0A090L6T4,(1_M_A0A0K0E803,(1_M_A0A0N5CB21,1_M_A0A0K0FGL4)))),((1_M_A0A0N
5DQX3,1_M_A0A085NDC7),(1_M_A0A0N5E2Y0,(1_M_A0A077YY88,1_M_A0A085NML0)))),((3_M_A0A183MQF5,3_M_A0A183AAW8),(3_M_A0A158R7U9,(3_M_A0A068Y9Z0,3_M_W6V9C7)))),(1_M_A0A0L8G6V0,((((3_
M_A0A151WGY4,3_M_A0A158NS37),3_M_A0A154PFZ0),3_M_B4I7P0),(3_M_W5LJR7,(3_M_U3J1L9,(3_M_F6YVZ9,(3_M_G3WP18,3_M_G3WP17)))))),(1_F_F4PBL6,(1_F_A0A168GI85,(((((((3_F_A0A166HVI1,3_F
_A0A164VTK7),3_F_A0A166BCP4),1_F_A0A165HYM6),(3_F_A0A166FBI4,(1_F_A0A165LZL5,3_F_A0A151VFH8))),3_F_A0A166CDF1),3_F_A0A180H1Z8),((F_Q6FSK0,1_F_E7QAP2),((((3_F_A0A178EBW2,3_F_A0
A178BB70),3_F_A0A177DMY2),3_F_A0A177BY91),(3_F_A0A165JZD4,(1_F_L8FUI4,((3_F_A0A162K3D0,3_F_A0A168GXS6),(1_F_A0A167UPF6,((1_F_A0A166UV10,1_F_A0A167BNH3),(1_F_A0A0J9V7A0,(1_F_W7
MLL3,1_F_X0CDJ6)))))))))))));

Перестройки доменной архитектуры
Эволюция доменных архитектур представляется нам, по итогам исследования, следующим образом:
На нескольких ветвях происходили вставки или делеции доменов, организующих архитектуры. В результате, по ходу эволюции, какие-либо части последовательности, ответственные за связыание и работу глюкозидазы и глюкотрансферазы, были утрачены или приобретены. Если обращаться к частным примерам, то, например, в кладе Metazoa по узлам расхождение верхней группы (с первой доменной архитектурой) и второй группы началось с приобретения нового домена (третья архитектура подразумевает N-концевого домена), но через два ответвления снова происходит потеря N-концевого домена, и последовательности возвращаются к первой архитектуре. Выше, по ссылке в заголовке, приведено изображение, в котором по предположению, что изначально N-концевого домена не существовало, зелёным показаны места возникновения домена, синим - потери его.

Что касается бутстрэп анализа - изменения в бутстрэп-дереве незначительны, и общая картина, скорее, подтверждает наше предположение о ходе эволюции. К тому же, в обоих деревьях есть раздеение по таксонам, Metazoa полностью совпадает и бутстрэпе, и в нашем дереве, а изменение архитектур в них относительно линейно, они не перемешаны, как в Fungi, где первая и третья архитектура значительно перемешаны. Выравнивания в этом месте нас вряд ли подвели, потому как в бутстрэпе примерно такая же картинка, откуда следует, что построение правильное.


Итоги работы:


Ссылки на ресурсы:


Вернуться назад

На главную страницу


©Solonovich Vera,2017