Эволюционные домены (1)

Выбор домена


Для дальнейшей реконструкции эволюции доменной архитектуры белков был выбран гликозид-гидролазный домен бета-галактозидазы. Бета-галактозидаза гидролизует гликозидную связь в молекуле лактозы и относится к семейству гликозид-гидролаз. Бета-галактозидаза состоит из трех доменов: гликозид-гидролазный, домен тримеризации и C-концевой домен.

Pfam AC Pfam ID Описание Доменные архитектуры
PF02449 Glyco_hydro_42 Гликозид-гидролазный домен бета-галактозидазы 34 архитектуры, для которых доступно 1345 последовательностей.
Таблица 1. Характеристики выбранного домена.

Загруженное с помощью JalView выравнивание из Pfam (File > Fetch Sequences по идентификатору PF02449) было раскрашено по консервативности (ClustalX и By conservation с порогом консервативности 15%). К последовательности BGAL_THETH была добавлена 3D структура (PDB ID 1KWG). Выравнивание было сохранено как проект JalView в файле glyco_hydro.jar, и как FASTA - файл - glyco_hydro.fasta.

Выбор архитектур

С использованием скрипта swisspfam-to-xls.py и файла, содержащего информацию об архитектуре всех последовательностей UniProt, была получена таблица с информацией об архитектуре последовательностей, содержащих домен Glyco_hydro_42, на основе которой в Excel была составлена сводная таблица.

Затем в таблицу были добавлены колонки с информацией о таксономической принадлежности. Для этого по идентификаторам отобранных последовательностей в UniProt с помощью сервиса Retrieve был получен файл в формате flat text, который были использован для работы скрипта uniprot-to-taxonomy.py. В результате получена таблица Excel с описанием белков из UniProt.

Для дальнейшего изучения эволюции доменных архитектур, включающих домен Glyco_hydro_42, были выбраны архитектуры Glyco_hydro_42, Glyco_hydro_42M (двухдоменная) и Glyco_hydro_42, Glyco_hydro_42M и Glyco_hydro_42C (трёхдоменная).

Домены Число представителей Описание других доменов
1 Glyco_hydro_42, Glyco_hydro_42M 320 Glyco_hydro_42M: Домен тримеризации.
2 Glyco_hydro_42M, Glyco_hydro_42, Glyco_hydro_42C 603 Glyco_hydro_42M: Домен тримеризации.
Glyco_hydro_42C: C-концевой домен.
Таблица 2. Характеристики выбранных архитектур

Выбор таксона

Для изучения указанных выше архитектур был выбран таксон Bacteria: с подтаксонами Actinobacteria, Firmicutes, Proteobacteria для первой из них, Bacteroidetes, Firmicutes, Proteobacteria для второй.

Выбор представителей архитектур

Из каждой архитектуры были отобраны последовательности (20 и 16 для первой и второй архитектур соответственно). Представленные в таблице Excel результаты выбора последовательностей были использованы для того, чтобы оставить в выравнивании нужные последовательности из двух групп с помощью скрипта filter_alignment.py.

Полученное выравнивание было загружено в JalView и отредактировано - удалены пустые колонки. Затем в нём были выделены группы согласно архитектуре, в каждой из них была выполнена раскраска последовательностей ClustalX, Conservation (были выбраны пороги на консервативность 30% и 50% для первой и второй групп соответственно). После повторного редактирования выравнивания (удалены несодержательные N- и C-концевые участки) в файле выравнивания содержится 35 последовательностей.

Ниже приведено изображение выравнивания домена.(рис. 1). В домене хорошо видны консервативные участки, но из-за большого размера (~ 370 остатков), имеется большое количество неконсервативных участков.

Рисунок 1. Проект JalView.