Выбор домена
Для дальнейшей реконструкции эволюции доменной архитектуры белков был выбран гликозид-гидролазный домен AAA_26. В таблице 1 представлена краткая характеристика выбранного домена, а также информация из базы данных Pfam.
Pfam AC | Pfam ID | Функция | Доменные архитектуры |
PF13500 | AAA_26 | АТФаза | 28 архитектур, для которых доступно 5230 последовательностей. |
Таблица 1. Домен AAA_26
Все последовательности, содержащие домен я собрала в fasta файл. Также я сделала jar проект выравнивания доменов для просмотра в Jalview, в котором выравнивание было раскрашено по консервативности (ClustalX и By conservation с порогом консервативности 15%) и была добавлена структура одного из доменов (PDB ID 3MLE).
На первом этапе при помощи скрипта swisspfam-to-xls.py я получила информацию из базы Pfam о всех последовательностях, содержащих выбранный мной домен. Полученные данные представлены в таблице Excel.
Для изучения были выбраны следующие архитектуры: AAA_26 + DRTGG и AAA_26 + AAA_26 + DRTGG + PTA_PTB. Информация о выбранных доменах представлена в таблице 2.
Архитектура | Pfam AC остальных доменов | Pfam ID остальных доменов | Функция остальных доменов | Ссылка на Pfam |
AAA_26 DRTGG |
PF07085 | DRTGG | связывание сахаров | Pfam |
AAA_26 DRTGG PTA_PTB |
PF07085 PF01515 |
DRTGG PTA_PTB |
связывание сахаров фосфат- ацетил/бутарил-трансфераза |
Pfam Pfam |
Таблица 2. Доменные архитектуры
Затем при помощи скрипта uniprot-to-taxonomy.py я получила таксономию из базы данных Uniprot для всех видов, содержищих выбранные архитектуры. На основе таксономии я выбрала таксон Bacteria и его подтаксоны: Cyanobacteria и Proteobacteria для двудоменной архитектуры и Actinobacteria Proteobacteria для трехдоменной архитектуры. Затем из всей массы архитектур в данных подтаксонах я выбрала наиболее удачные (не фрагменты домена). Итоговую сводную таблицу можно скачать по ссылке..
Для каждой архитектуры я выбрала по 19 последовательностей. Выравнивание этих последовательности было отбрано из общей массы при помощи скрипта filter-alignment.py.
Затем в Jalview для выравнивания были удалены пустые столбцы и несодержательные N- и C-концевые участки, составлены две группы последовательностей по архитектурам и внутри групп выравнивание покрашено ClustalX и By conservation. Так как домен довольно длинный, то встречаются и неплохо выровненные участки, и участки со слабым подобием. Jar проект можно скачать по ссылке. На рисунке 1 один представлено выравнивание.
Рис.1 Выравнивание выборки