Saturday, March 18, 2017. Posted by Marina Gladkova

Работа с KEGG ORTHOLOGY.

Цель данного практикума – проверить, являются ли члены разных ортологических рядов KEGG гомологичными белками, и проанализировать их филогенетические отношения.



Задание 1. Выбор пары ортологических рядов для дальнейшей работы.



В базе данных KEGG был выбран метаболический путь триптофана (tryptophan metabolism). В нем была взята реакция получения из (индол-3-ил)ацетамида 3-индолацетонитрила, катализируемая нитрил-гидратазой, она имеет номер 4.2.1.84, ниже на рисунке 1 выделена фиолетовым цветом (ее идентификатор - R04020). Реакция специально подбиралась так, чтобы в ней участвовали ферменты из 2 кластеров, с количеством белков меньшим или равным 200 в каждом. В ортологическом ряду K01721 cубъединицы α нитрил-гидратазы - 193 белка, а в ряду K20807 субъединицы β общее количество белков такое же (изоформы не учитывались).

Рис. 1. Схематичное изображение метаболического пути триптофана (Reference pathway)



Рис. 2. Cхема реакции R04020





Задание 2. Получение совместного множественного выравнивания.



По списку идентификаторов Uniprot были получены файлы с нужными последовательностями в формате .fasta, затем обработаны скриптом (доступен ниже по ссылке) и сохранены в общий fasta-файл orthologies.fasta. С их использованием на сервере MUSCLE было построено 3 выравнивания (отдельно для каждого ортологического ряда и общее), которые далее были сохранены в проекте JalView с покраской по аминокислотным остаткам Clustalx.

K01721_out.fasta K20807_out.fasta
orthologies.fasta script.py




Задание 3. Проверка гомологичности белков в выравнивании.



1. Проверка выравнивания

Мне не очень понравился результат совместного выравнивания ортологических рядов до "чистки" (рис. 3), поэтому для построения множественного выравнивания сначала проверялась гомологичноcть белков внутри одного ортологического ряда (все 3 выравнивания до "чистки" можно посмотреть в проекте KEGG_orth_before.jvp).

Рис. 3. Совместное выравнивание ортологических рядов до "чистки"



Так, выравнивание ряда K20807 после удаления невыровненных C- и N-концов, а также коротких последовательностей с большим числом гэпов (см. список удаленных последовательностей), оказалось достаточно хорошим. Следует отметить, что у группы из 26 белков (для наглядности первыми представлены в проекте) на участке с 66 по 88 позицию нет гэпов, как в остальном выравнивании, но встречаются колонки с функционально консервативными аминокислотами. Вероятно, это какой-то дополнительный домен, утерянный другими последовательностями.

Рис. 4. Выравнивание ортологического ряда K20807 после "чистки"



После аналогичных операций в выравнивании ортологического ряда K01721 получилось даже более качественное выравнивание, где ширина некоторых блоков составляла до 70 позиций.

Рис. 5. Выравнивание ортологического ряда K01721 после "чистки"



2. Гомологичность белков выравнивании

Несмотря на то, что выравнивание отдельных ортологических рядов получилось вполне приемлемым, вряд ли можно говорить о наличии множественного выравнивания (хотя изначально я считала иначе). Проект после "чистки" - KEGG_orth_after.jvp.

Я попробовала провести выравнивание выравниваний (рис. 6) и почистить совместное множественное выравнивание (рис. 7), но как в первом, так и во втором случае не обнаружила вертикальных блоков с большим количеством консервативных позиций для обоих ортологических рядов. Наблюдается пара-тройка очень узких блоков (длиной не более 5 аминокислотных остатков), в отличие от индивидуальных выравниваний ортологических рядов, где блоки чётко видны на протяжении всей последовательности. Согласно данным литературы последовательности субъединиц α и β нитрил-гидратазы не являются гомологами и относятся к разным семействам. [1], [2]

Рис. 6. Выравнивание выравниваний после "чистки"



Рис. 7. Совместное выравнивание после "чистки"






Задание 4. Построение филогенетического дерева.



Построение филогенетического дерева не имеет смысла, так как отсутствует множественное выравнивание (то есть белки из разных ортологических рядов не гомологичны между собой), что объясняется гетеродимерной природой исследуемого энзима. Альфа-субъединица состоит из длинного N-концевого плеча и С-терминального домена, формирующего новую складку, которая представляет собой четырехслойную α-β-β-α структуру с нетривиальными связями между β-листами. Бета-субъединица также имеет N-концевой, спиральный и C-концевой домены (сворачивается в β-бочонок). Активный центр располагается в углублении на границе раздела субъединиц. Сайт связывания с кофактором образо2ван остатками только альфа-субъединицы. [3]

Источники