Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой
Для выполнения практикума использовался домен F5/8 type C моего белка (сиалидазы из первого и второго семестра).
Домен представлен во многих факторах, обеспечивающих коагуляцию крови
(5 и 8). Содержит два консервативных цистеина во многих белках, которые замыкают структуру посредством концевых дисульфидных связей.
Сервис предлагает 1560 архитектур, содержащих данный домен.
При сравнительном анализе видно, что, чаще всего, F5/8 type C домен представлен в двух экземплярах, располагающихся скраю последовательностей.
Рисунок 1. Результат поиска Pfam
Рисунок 2. Доменная архитектура сиалидазы
 |
Рисунок 3. Дерево найденного домена
|
1. Выбор семейства доменов
Выравнивание, белков из содержащих рассматриваемый домен было скачано в Jalview из Pfam и сохранено в файл
. Также было визуализировано две структуры, для которых имелись записи в PDB (Визуализация 1, 2).
Работа сохранена в виде проекта.
Если вы столкнулись с нехваткой памяти, то следует добавить две следующие строки в конец файла Jalview.lax
lax.nl.java.option.java.heap.size.max=1000m
lax.nl.java.option.java.heap.size.initial=500m
 |
Визуализация 1. DIS1A_DICDI 2WN3
|
 |
Визуализация 2. FA8_HUMAN 3HNY
|
2. Выбор архитектур
Была получена информация об архитектуре всех последовательностей, входящих в семейство F5_F8_type_C (PF00754).
С помощью скрипта swisspfam-to-xls.py. информация об архитектуре была записана в файл
PF03067.xls.
Команда: python swisspfam-to-xls.py -i /srv/databases/pfam/swisspfam.gz -z -p PF03067 -o PF03067.xls
На новом листе была получена сводная таблица, в которой строки – AC последовательностей, столбцы – домены Pfam.
Далее для каждого AC в базе данных Uniprot с помощью скрипта uniprot_to_taxonomy.py. была скачана таксономия, и записана в файл
taxonomy.xls.
Команда: python uniprot-to-taxonomy.py -i uniprot_out.txt -o taxonomy.xls
Таблица была дополнена информацией о таксономии доменов, также был добавлен столбец длин доменов.
Получившаяся таблица доступна в виде Excel таблицы PF00754_tables.xlsx
Опишем некоторые архитектуры, характерные для данного домена.
Для дальнейшего анализа было выбрано две архитектуры
 |
Рисунок 4. Архитектура с Alpha_L_fucos (PF01120)
|
Данная архитектура помимо сиалидазы содержит - домен, осуществляющий гидролиз alpha-L-fucoside.
 |
Рисунок 5.Архитектура с Glyco_hydro_43 (PF04616)
|
Данная архитектура помимо сиалидазы содержит - домен Glyco_hydro_43 (PF04616), осуществляющий гидролиз alpha-L-arabinofuranoside.
3. Выбор таксона и подтаксонов
Для дальнейшего анализа был взят таксон cellular organisms, который был разделён на подтаксоны Bacteria, Eukaryota. Введём обозначения для данных подтаксонов:
Bacteria - B, Eukaryota - E.
4. Выбор представителей архитектур
Был произведён выбор представителей из электронной таблицы с целью дальнейшего парсинга с момощью скрипта
filter-alignment.py
Команда: python filter-alignment.py -i alignment.mfa -m in_AC.txt -o
align_AC.mfa -a "_"
В программе Jalview были обработаны полученные выравнивания. Были удалены С и N концы, содержащие мало информации. Были удалены неинформативные столбцы.
Последовательности были покрашены по ClustalX с порогом консервативности равным 15.
 |
Рисунок 6.Вид выравнивания в Jalview
|
После были удалены короткие последовательности. Оставшиеся были закодированы согласно их групповой принадлежности.
2 - два домена, Е - Eukaryota, B - Bacteria, F - first (первая архитектура), S - second (вторая архитектура).
Для всего таксона, в целом, возможно составить более правдоподобный консенсус.
Ссылка на получившийся
файл
Ссылка на
проект в Jalview.
Построение филогенетического дерева домена
в программе Mega по данному выравниванию бвло построено дерево, изображённое на рисунке 7. Для построения дерева использовался метод Neighbor-Joining с bootstrap 100.
 |
Рисунок 7.Дерево выбранных архитектур
|
Скобочная формула дерева.
Обсуждение
Из дерева видно, что, в целом, две архитектуры нечётко кластеризуются на дереве. При укоренении в другую точку можно добиться получения двух клад,
включающих в себя раздельно практически все последовательности двух подтаксонов.
К сожалению, представленность обеих архитектур в группе Eukaryota оказалась очень низкой. Если представить дерево в другом виде (Рисунок 8), и покарасить по принадлежности к архитектуре,
то более наглядно видно, что, по-видимому, данные белки обладают общей эволюционной историей. Вероятно, произошёл горизонтальный перенос генов между группами бактерий, что не удивительно.
 |
Рисунок 8.Дерево выбранных архитектур
|
Ссылки
- Uniprot
- Ribosome hibernation promoting factor
- Ribosome hibernation promoting factor in NCBI
- itol