Выбор домена
Для дальнейшей реконструкции эволюции доменной архитектуры белков был выбран гликозид-гидролазный домен бета-галактозидазы. Бета-галактозидаза гидролизует гликозидную связь в молекуле лактозы и относится к семейству гликозид-гидролаз. Бета-галактозидаза состоит из трех доменов: гликозид-гидролазный, домен тримеризации и C-концевой домен.
Pfam AC | Pfam ID | Описание | Доменные архитектуры |
PF02449 | Glyco_hydro_42 | Гликозид-гидролазный домен бета-галактозидазы | 34 архитектуры, для которых доступно 1345 последовательностей. |
Загруженное с помощью JalView выравнивание из Pfam (File > Fetch Sequences по идентификатору PF02449) было раскрашено по консервативности (ClustalX и By conservation с порогом консервативности 15%). К последовательности BGAL_THETH была добавлена 3D структура (PDB ID 1KWG). Выравнивание было сохранено как проект JalView в файле glyco_hydro.jar, и как FASTA - файл - glyco_hydro.fasta.
Выбор архитектур
С использованием скрипта swisspfam-to-xls.py и файла, содержащего информацию об архитектуре всех последовательностей UniProt, была получена таблица с информацией об архитектуре последовательностей, содержащих домен Glyco_hydro_42, на основе которой в Excel была составлена сводная таблица.
Затем в таблицу были добавлены колонки с информацией о таксономической принадлежности. Для этого по идентификаторам отобранных последовательностей в UniProt с помощью сервиса Retrieve был получен файл в формате flat text, который были использован для работы скрипта uniprot-to-taxonomy.py. В результате получена таблица Excel с описанием белков из UniProt.
Для дальнейшего изучения эволюции доменных архитектур, включающих домен Glyco_hydro_42, были выбраны архитектуры Glyco_hydro_42, Glyco_hydro_42M (двухдоменная) и Glyco_hydro_42, Glyco_hydro_42M и Glyco_hydro_42C (трёхдоменная).
№ | Домены | Число представителей | Описание других доменов |
1 | Glyco_hydro_42, Glyco_hydro_42M | 320 | Glyco_hydro_42M: Домен тримеризации. |
2 | Glyco_hydro_42M, Glyco_hydro_42, Glyco_hydro_42C | 603 | Glyco_hydro_42M: Домен тримеризации. |
Glyco_hydro_42C: C-концевой домен. |
Выбор таксона
Для изучения указанных выше архитектур был выбран таксон Bacteria: с подтаксонами Actinobacteria, Firmicutes, Proteobacteria для первой из них, Bacteroidetes, Firmicutes, Proteobacteria для второй.
Выбор представителей архитектур
Из каждой архитектуры были отобраны последовательности (20 и 16 для первой и второй архитектур соответственно). Представленные в таблице Excel результаты выбора последовательностей были использованы для того, чтобы оставить в выравнивании нужные последовательности из двух групп с помощью скрипта filter_alignment.py.
Полученное выравнивание было загружено в JalView и отредактировано - удалены пустые колонки. Затем в нём были выделены группы согласно архитектуре, в каждой из них была выполнена раскраска последовательностей ClustalX, Conservation (были выбраны пороги на консервативность 30% и 50% для первой и второй групп соответственно). После повторного редактирования выравнивания (удалены несодержательные N- и C-концевые участки) в файле выравнивания содержится 35 последовательностей.
Ниже приведено изображение выравнивания домена.(рис. 1). В домене хорошо видны консервативные участки, но из-за большого размера (~ 370 остатков), имеется большое количество неконсервативных участков.
Рисунок 1. Проект JalView.