Карань Анна |
|||
Главная | О себе | Учеба | ФББ МГУ |
Реконструкция эволюции доменной архитектуры
Цель: Реконструировать эволюцию доменной архитектуры белков, содержащих один и тот же домен Pfam
Задание 1. Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой
Для дальнейшей реконструкции эволюции доменной архитектуры белков был выбран N-концевой домен циклина. Циклины – семейство белков-активаторов циклин-зависимых протеинкиназ (CDK) (англ. CDK, cyclin-dependent kinases) — ключевых ферментов, участвующих в регуляции клеточного цикла эукариот. Циклины состоят из двух доменов (N-концевого и C-концевого), один из которых и был выбран для изучения.
Таблица 1. Характеристика N-концевого домена | ||||
Pfam ID | Pfam AC | Описание | Доменные архитектуры | |
Cyclin_N | PF00134 | Циклин, N-концевой домен | 211 архитектур, 13476 последовательностей |
Загруженное с помощью JalView выравнивание из Pfam (File > Fetch Sequences по идентификатору PF00134) было раскрашено по консервативности (ClustalX) - all_align.jvp Описание доменных архитектур
Выбор архитектур и таксонов
Было выбрано 2 архитектуры, содержащих исследуемый домен, для дальнейшей работы: Cyclin_N, Cyclin_C - 5667 последовательностей(Рис. 1), Cyclin_N - 6381 последовательность(Рис. 2).
Рис.1. Cyclin_N, Cyclin_C |
Рис.2. Cyclin_N |
Далее с помощью скрипта swisspfam_to_xls.py были отобраны последовательности с исследуемым доменом из файла /srv/databases/pfam/swisspfam.gz с информацией об архитектуре всех последовательностей:
python swisspfam-to-xls.py -z -i swisspfam.gz -p PF00134 -o arc.xls |
В результате был получен следующий файл: arc.xls. Далее была получена таблица с информацией об архитектурах последовательностей, содержащих домен Cyclin_N. После были скачаны последовательности для идентификаторов белков из этой таблицы (Uniprot) - uniprot.txt, для которых была получения таксономия с помощью скрипта uniprot_to_taxonomy.py:
python uniprot-to-taxonomy.py -i uniprot.txt -o tax.xls |
В результате был получен файл с таксономией - tax.xls. Для дальнейшей работы был выбран таксон Fungi и 2 подтаксона: Dikarya и Mucoromycota. Dikarya (Высшие грибы) - подцарство грибов, в которое включают Аскомицеты и Базидиомицеты. В быту грибами обычно называются именно высшие грибы (или их плодовые тела). Латинское название подцарства обусловлено тем, что у представителей этих отделов при половом размножении образуются двуядерные клетки (дикарионы) и даже дикариотический мицелий, и лишь по истечении некоторого времени ядра сливаются, порождая диплоидную зиготу. Mucoromycota - это Зигомицеты, к ним относится всем известный Мукор. Далее было выбрано по 20 последовательностей каждой архитектуры, по 10 на подтаксон, т.е. всего 40 последовательностей - sel.xls.
Анализ выравнивания и таксономии
Выравнивание выбранных последовательностей - sel_align.jvp. Производилась чистка выравнивания, т.е. удалены N- и C-участки, и созданы две группы архитектур с раскраской внутри каждой ClustalX. Последовательностей особенно сильно отлияающихся от остальных нет, поэтому из выравнивания я последовательности не удаляла (Рис. 3).
Рис.3 Выравнивание выбранных последовательностей с разделением на группы по архитектурам: Cyclin_N, Cyclin_C, Cyclin_N и покраской ClustalX внутри групп
Как видно на Рис. 3 эти архитектуры отличаются не сильно. Консервативные для 1-ой архитектуры позиции консервативны и для второй, и наоборот. Выравнивание неплохое, можно выделить не меньше 9 консервативных блоков. Можно сказать, что во второй архитектуре больше гэпов, также у двух архитектур отличаются C и N концы, во второй архитектуре больше гэпов в начале выравнивания, а в первой архитектуре наоборот. Теперь посмотрим на дереве построенное по этому выравниванию методо NJ (Рис. 4) Скобочное дерево - tree.nwk.
Рис.4 Дерево, построенное по выравниванию выбранных последовательностей методом NJ. 1 - последовательности с Cyclin_N, Cyclin_C архитектурой, 2 - Cyclin_N, D - Dikarya, M - Mucoromycota
Как видно разделения по архитектурам на дереве нету, по таксономии оно лучше, но также с огромным
количеством исключений (несогласованное дерево), скорей всего это связано с плохой различимостью
архитектур еще на выравнивании. Таксоны достаточно далеки друг от друга (Высшие грибы и Мукоромицеты)
и не славятся консервативностью, так что скорей всего такая плохая различимость архитектур связана
именно с особенностями архитектур, а не таксонов. Это можно объяснить множеством перестроек, т.е.
делециями и вставками C-домена, достаточно несложная перестройка, поэтому может происходить несколько
раз. Возможно именно из-за этого не получается разделить дерево по архитектурам.
©Карань Анна, 2015