Карань Анна
студентка факультета биоинженерии и бионформатики

Реконструкция эволюции доменной архитектуры

Цель: Реконструировать эволюцию доменной архитектуры белков, содержащих один и тот же домен Pfam

Задание 1. Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой

Для дальнейшей реконструкции эволюции доменной архитектуры белков был выбран N-концевой домен циклина. Циклины – семейство белков-активаторов циклин-зависимых протеинкиназ (CDK) (англ. CDK, cyclin-dependent kinases) — ключевых ферментов, участвующих в регуляции клеточного цикла эукариот. Циклины состоят из двух доменов (N-концевого и C-концевого), один из которых и был выбран для изучения.

Таблица 1. Характеристика N-концевого домена
Pfam IDPfam ACОписаниеДоменные архитектуры
Cyclin_N PF00134Циклин, N-концевой домен211 архитектур, 13476 последовательностей

Загруженное с помощью JalView выравнивание из Pfam (File > Fetch Sequences по идентификатору PF00134) было раскрашено по консервативности (ClustalX) - all_align.jvp
Описание доменных архитектур

Выбор архитектур и таксонов

Было выбрано 2 архитектуры, содержащих исследуемый домен, для дальнейшей работы: Cyclin_N, Cyclin_C - 5667 последовательностей(Рис. 1), Cyclin_N - 6381 последовательность(Рис. 2).

Рис.1. Cyclin_N, Cyclin_C

Рис.2. Cyclin_N

Далее с помощью скрипта swisspfam_to_xls.py были отобраны последовательности с исследуемым доменом из файла /srv/databases/pfam/swisspfam.gz с информацией об архитектуре всех последовательностей:

python swisspfam-to-xls.py -z -i swisspfam.gz -p PF00134 -o arc.xls

В результате был получен следующий файл: arc.xls. Далее была получена таблица с информацией об архитектурах последовательностей, содержащих домен Cyclin_N.
После были скачаны последовательности для идентификаторов белков из этой таблицы (Uniprot) - uniprot.txt, для которых была получения таксономия с помощью скрипта uniprot_to_taxonomy.py:

python uniprot-to-taxonomy.py -i uniprot.txt -o tax.xls

В результате был получен файл с таксономией - tax.xls. Для дальнейшей работы был выбран таксон Fungi и 2 подтаксона: Dikarya и Mucoromycota. Dikarya (Высшие грибы) - подцарство грибов, в которое включают Аскомицеты и Базидиомицеты. В быту грибами обычно называются именно высшие грибы (или их плодовые тела). Латинское название подцарства обусловлено тем, что у представителей этих отделов при половом размножении образуются двуядерные клетки (дикарионы) и даже дикариотический мицелий, и лишь по истечении некоторого времени ядра сливаются, порождая диплоидную зиготу.
Mucoromycota - это Зигомицеты, к ним относится всем известный Мукор.
Далее было выбрано по 20 последовательностей каждой архитектуры, по 10 на подтаксон, т.е. всего 40 последовательностей - sel.xls.

Анализ выравнивания и таксономии

Выравнивание выбранных последовательностей - sel_align.jvp. Производилась чистка выравнивания, т.е. удалены N- и C-участки, и созданы две группы архитектур с раскраской внутри каждой ClustalX. Последовательностей особенно сильно отлияающихся от остальных нет, поэтому из выравнивания я последовательности не удаляла (Рис. 3).

Рис.3 Выравнивание выбранных последовательностей с разделением на группы по архитектурам: Cyclin_N, Cyclin_C, Cyclin_N и покраской ClustalX внутри групп

Как видно на Рис. 3 эти архитектуры отличаются не сильно. Консервативные для 1-ой архитектуры позиции консервативны и для второй, и наоборот. Выравнивание неплохое, можно выделить не меньше 9 консервативных блоков. Можно сказать, что во второй архитектуре больше гэпов, также у двух архитектур отличаются C и N концы, во второй архитектуре больше гэпов в начале выравнивания, а в первой архитектуре наоборот.
Теперь посмотрим на дереве построенное по этому выравниванию методо NJ (Рис. 4)
Скобочное дерево - tree.nwk.

Рис.4 Дерево, построенное по выравниванию выбранных последовательностей методом NJ. 1 - последовательности с Cyclin_N, Cyclin_C архитектурой, 2 - Cyclin_N, D - Dikarya, M - Mucoromycota

Как видно разделения по архитектурам на дереве нету, по таксономии оно лучше, но также с огромным количеством исключений (несогласованное дерево), скорей всего это связано с плохой различимостью архитектур еще на выравнивании. Таксоны достаточно далеки друг от друга (Высшие грибы и Мукоромицеты) и не славятся консервативностью, так что скорей всего такая плохая различимость архитектур связана именно с особенностями архитектур, а не таксонов. Это можно объяснить множеством перестроек, т.е. делециями и вставками C-домена, достаточно несложная перестройка, поэтому может происходить несколько раз. Возможно именно из-за этого не получается разделить дерево по архитектурам.


©Карань Анна, 2015