Эволюционные домены

Описание выбранного домена в Pfam

Домен выбиралася следующим образом: в Pfam были найдены домены белка с 1 круса ybbD_BACSU, но оба домена представлены более чем в 3000 видах, поэтому Pfam отказывался строить деревья. Из архитектур этих доменов был выбран другой, с которым они сочетались.
АС - PF03422.
ID - CBM_6.
Ссылка на страницу домена Pfam
Функция домена - связывание углеводородов (carbohydrate-binding module), обычно располагается в ферментах, осуществляющих превращения углеводородов.
Ссылка на доменную архитектуру с доменом CBM_6.

С Pfam было скачено выравнивание, в JalView оно было окрашено, одна последовательность проассоциирована с pdb структурой.

Выравнивание в формате .jar
.

Выравнивание в формате fasta.

Из 402 возможных архитектур были выбраны две для работы:

Glyco_hydro_43, CBM_6 (~360 последовательностей)
Glyco_hydro_16, CBM_6 (~70 последовательностей)

Создание выборки

Для создания выборки из файла, содержащего информацию о всех доменах последовательностей на Uniprot, с помощью скрипта был составлен список всех последовательностей, содержащих домен CBM_6.

Для получения таксономии данных псоледовательностей, на Uniprot->Retrieve скачивались все записи с этими последовательностями, однако часть записей вообще не обнаружена на Uniprot, как например эта.

На основе частоты встречаемости доменов, архитектур, которые они составляют и представленности в таксонах потом и кровью были выбраны выше указанные доменные архитектуры. Для каждой архитектуры был выбран таксон Bacteria и подтаксоны Actinobacteria и Proteobacteria.

Таблицу excel можно скачать здесь.

Архитектура	Число последовательностей	Bacteria
Архитектура	Число последовательностей	Actinobacteria	Proteobacteria
CBM+GH43	20	13	7
CBM+GH16	22	15	7

Анализ данных

Было построено выравнивание выбранных последовательностей, которое было скорректированно, были удалены выбивающиеся последовательности, концы выравнивания и окрашено ClustalX с порогом консервативности 30%. Одна последовательность, не входящая в выборку, была добавлена и проассоциирована с PDB структурой, но она слишком сильно отличается от выбранных последовательностей, чем мало помогает для анализа данных. Финальное выравнивание можно найти здесь.

Закодированы последовательности были следующим образом: NN_X_YYYYYY, где NN - число 43 или 16, соответствующее доменам Glyco_hydro_43 и Glyco_hydro_16, соответственно, Х - это А(Actinobacteria) или Р(Proteobacteria),YYYYYY - ID последовательности.

Последовательности также были разбиты на две группы согласно архитектурам. Можно сделать вывод, что в разных архитектурах разные а.о. домена CBM_6 более консервативны, разное количество консервативных остатков в целом, что можно объяснить разными функциями белков этих архитектур.

Построение филогенетического дерева

В программе MEGA методом Maximum Likelihood было построено дерево на основе полученного выравнивания из предыдущего задания. скобочная формула дерева.

С помощью сервера ITOL полученное дерево было раскрашенно. Дерево домена CBM_6

Рис.1. Дерево филогении бактерий на основе домена CBM_6.

Выводы

Так как на дереве четко разделены две архитектуры, то можно точно сказать, что архитектуры разделились раньше чем выбранные бактерии. Т.е. они раздились у какого-то общего предка.

Также внутри архитектуры с доменом Glyco_hydro_16 четко разнесены два бактериальных филума, что говорит о том, что сначала бактерии разделились на эти филумы, а потом уже активно эволюционировала архитектура с доменом Glyco_hydro_16.

Архитектура с Glyco_hydro_43 эволюционировала несколько сложнее, запутаннее и закономерность выявить сложно.