Занятие 9: Эволюционные домены
Выбор домена
Для дальнейшей реконструкции эволюции доменной архитектуры белков был выбран N-концевой домен циклина. Циклины – семейство белков, которые регулируют прогрессию клеточного цикла путём активации циклин-зависимых киназ (CDK). Циклины состоят из двух доменов (N-концевого и C-концевого), один из которых и был выбран для изучения.
Pfam AC | Pfam ID | Описание | Доменные архитектуры |
PF00134 | Cyclin_N | Циклин, N-концевой домен | 86 архитектур, для которых доступно 6213 последовательностей. |
Загруженное с помощью JalView выравнивание из Pfam (File > Fetch Sequences по идентификатору PF00134) было раскрашено по консервативности (ClustalX и By conservation с порогом консервативности 15%). К последовательности CCNA2_HUMAN была добавлена 3D структура (PDB ID 1E9H). Выравнивание было сохранено как проект JalView в файле cyclin_n.jar.
Выбор архитектур
С использованием скрипта swisspfam-to-xls.py и файла, содержащего информацию об архитектуре всех последовательностей UniProt, была получена таблица с информацией об архитектуре последовательностей, содержащих домен Cyclin_N, на основе которой в Excel была составлена сводная таблица.
Затем в таблицу были добавлены колонки с информацией о таксономической принадлежности. Для этого по идентификаторам отобранных последовательностей в UniProt были получены AC (ID Mapping), по которым были получены файлы в формате UniProt (Retrieve), которые были использованы для работы скрипта uniprot-to-taxonomy.py. Также был добавлен столбец, содержащий информацию о длине домена Cyclin_N.
Для дальнейшего изучения эволюции доменных архитектур, включающих домен Cyclin_N, были выбраны архитектуры Cyclin_N, Cyclin_C (двухдоменная) и F-box, Cyclin_N, Cyclin_C (трёхдоменная).
№ | Домены | Число представителей | Описание других доменов |
1 | Cyclin_N, Cyclin_C | 2770 | Cyclin_C: C-концевой домен циклина |
2 | F-box, Cyclin_N, Cyclin_C | 34 | F-box: домен, часто располагающийся в N-концевой части различных белков, который участвует в белок-белковых взаимодействиях в различных событиях, таких как полиубиквитинирование, стадия элонгация транскрипции, связывание центромер. |
Cyclin_C: C-концевой домен циклина. |
Выбор таксона
Для изучения указанных выше архитектур был выбран таксон Euteleostomi: с подтаксонами Mammalia, Amphibia, Actinopterygii для первой из них, Eutheria, Batrachia, Metatheria, Dinosauria для второй.
Euteleostomi представляет собой монофилитическую группу, включающую в себя более 90% современных позвоночных. Класс млекопитающие – Mammalia – относится к подтипу позвоночные (Vertebrata), который является высшим подтипом хордовых. Класс земноводные – Amphibia – состоит из наиболее примитивных наземных позвоночных. К классу лучепёрых рыб (из надкласса костных рыб) – Actinopterygii – относятся около 95% современных видов рыб. Инфраклассы плацентарных (Eutheria) и сумчатых (Metatheria) выделяют в подклассе Theria класса Mammalia (по одной из классификаций); Batrachia и Dinosauria включают в себя земноводных и пресмыкающихся соответственно.
Выбор представителей архитектур
Из каждой архитектуры были отобраны последовательности (36 и 29 для первой и второй архитектур соответственно). Представленные на листе Distinguished книги Excel результаты выбора последовательностей (они также отмечены цветом на основной таблице) были использованы для того, чтобы оставить в выравнивании нужные последовательности из двух групп (был использован скрипт filter_alignment.py). При этом к выборке была добавлена последовательность CCNA2_HUMAN с известной 3D структурой (PDB ID 1E9H), по которой затем была добавлена разметка (аннотация CCNA2_HUMAN annotation в проекте JalView).
Полученное выравнивание было загружено в JalView и отредактировано (удалены пустые колонки). Затем в нём были выделены группы согласно архитектуре, в каждой из них была выполнена раскраска последовательностей ClustalX, Conservation (были выбраны пороги на консервативность 30% и 50% для первой и второй групп соответственно). После повторного редактирования выравнивания (удалены несодержательные N- и C-концевые участки, удалены некоторые последовательности, снова удалены пустые колонки) в файле выравнивания содержится 55 последовательностей.
Часть вторая >
Ссылки
- Файл cyclin_n.jar.
- Файл swisspfam-to-xls.py.
- Файл cyclin_n_xls.txt.
- Файл cyclin_n.xlsx.
- Файл filter_alignment.py.
- Файл cyclin_n_al_filtered.fa.
- Файл cyclin_n_jalview.jar.
- Файл uniprot-to-taxonomy.py.