Реконструкция эволюции доменной архитектуры






Следите за обновлениями и дополнениями
Если Вы заметили опечатки, или ссылка испортилась, пожалуйста, напишите мне



Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой

Для выполнения практикума использовался домен F5/8 type C моего белка (сиалидазы из первого и второго семестра). Домен представлен во многих факторах, обеспечивающих коагуляцию крови (5 и 8). Содержит два консервативных цистеина во многих белках, которые замыкают структуру посредством концевых дисульфидных связей. Сервис предлагает 1560 архитектур, содержащих данный домен. При сравнительном анализе видно, что, чаще всего, F5/8 type C домен представлен в двух экземплярах, располагающихся скраю последовательностей.



Рисунок 1. Результат поиска Pfam




Рисунок 2. Доменная архитектура сиалидазы


Рисунок 3. Дерево найденного домена


1. Выбор семейства доменов

Выравнивание, белков из содержащих рассматриваемый домен было скачано в Jalview из Pfam и сохранено в файл . Также было визуализировано две структуры, для которых имелись записи в PDB (Визуализация 1, 2). Работа сохранена в виде проекта. Если вы столкнулись с нехваткой памяти, то следует добавить две следующие строки в конец файла Jalview.lax

lax.nl.java.option.java.heap.size.max=1000m
lax.nl.java.option.java.heap.size.initial=500m

Визуализация 1. DIS1A_DICDI 2WN3


Визуализация 2. FA8_HUMAN 3HNY




2. Выбор архитектур

Была получена информация об архитектуре всех последовательностей, входящих в семейство F5_F8_type_C (PF00754). С помощью скрипта swisspfam-to-xls.py. информация об архитектуре была записана в файл PF03067.xls.

Команда: python swisspfam-to-xls.py -i /srv/databases/pfam/swisspfam.gz -z -p PF03067 -o PF03067.xls

На новом листе была получена сводная таблица, в которой строки – AC последовательностей, столбцы – домены Pfam.
Далее для каждого AC в базе данных Uniprot с помощью скрипта uniprot_to_taxonomy.py. была скачана таксономия, и записана в файл taxonomy.xls.

Команда: python uniprot-to-taxonomy.py -i uniprot_out.txt -o taxonomy.xls

Таблица была дополнена информацией о таксономии доменов, также был добавлен столбец длин доменов. Получившаяся таблица доступна в виде Excel таблицы PF00754_tables.xlsx



Опишем некоторые архитектуры, характерные для данного домена.

Для дальнейшего анализа было выбрано две архитектуры

Рисунок 4. Архитектура с Alpha_L_fucos (PF01120)


Данная архитектура помимо сиалидазы содержит - домен, осуществляющий гидролиз alpha-L-fucoside.

Рисунок 5.Архитектура с Glyco_hydro_43 (PF04616)


Данная архитектура помимо сиалидазы содержит - домен Glyco_hydro_43 (PF04616), осуществляющий гидролиз alpha-L-arabinofuranoside.



3. Выбор таксона и подтаксонов

Для дальнейшего анализа был взят таксон cellular organisms, который был разделён на подтаксоны Bacteria, Eukaryota. Введём обозначения для данных подтаксонов: Bacteria - B, Eukaryota - E.

4. Выбор представителей архитектур

Был произведён выбор представителей из электронной таблицы с целью дальнейшего парсинга с момощью скрипта filter-alignment.py

Команда: python filter-alignment.py -i alignment.mfa -m in_AC.txt -o align_AC.mfa -a "_"

В программе Jalview были обработаны полученные выравнивания. Были удалены С и N концы, содержащие мало информации. Были удалены неинформативные столбцы. Последовательности были покрашены по ClustalX с порогом консервативности равным 15.

Рисунок 6.Вид выравнивания в Jalview


После были удалены короткие последовательности. Оставшиеся были закодированы согласно их групповой принадлежности. 2 - два домена, Е - Eukaryota, B - Bacteria, F - first (первая архитектура), S - second (вторая архитектура). Для всего таксона, в целом, возможно составить более правдоподобный консенсус. Ссылка на получившийся файл Ссылка на проект в Jalview.

Построение филогенетического дерева домена

в программе Mega по данному выравниванию бвло построено дерево, изображённое на рисунке 7. Для построения дерева использовался метод Neighbor-Joining с bootstrap 100.



Рисунок 7.Дерево выбранных архитектур


Скобочная формула дерева.

Обсуждение

Из дерева видно, что, в целом, две архитектуры нечётко кластеризуются на дереве. При укоренении в другую точку можно добиться получения двух клад, включающих в себя раздельно практически все последовательности двух подтаксонов. К сожалению, представленность обеих архитектур в группе Eukaryota оказалась очень низкой. Если представить дерево в другом виде (Рисунок 8), и покарасить по принадлежности к архитектуре, то более наглядно видно, что, по-видимому, данные белки обладают общей эволюционной историей. Вероятно, произошёл горизонтальный перенос генов между группами бактерий, что не удивительно.



Рисунок 8.Дерево выбранных архитектур


Ссылки

  1. Uniprot
  2. Ribosome hibernation promoting factor
  3. Ribosome hibernation promoting factor in NCBI
  4. itol