Работа с KEGG ORTHOLOGY


1. Выбор пары ортологических рядов для дальнейшей работы
Из базы данных KEGG был выбран метаболический путь riboflavin metabolism (метаболизм рибофлавина). В этом пути я вырала реакцию 3.13.104, показанную по рисунке 1. Весь метаболический путь показан на рисунке 2.

Рис. 1 Выбранная реакция

Рис. 2 Riboflavin metabolism

Реакция катализируется пятью рядами ортологичных белков: K20860, K20861, K20862, K21063, K21064. Я выбрала первые два из них; подробная информация содержится в таблице 1.

Таблица №1
Выбранные ряды
Идентификатор ряда K20860 K20861
Генов 170 341
Белковых последовательностей (из них в UniProt) 36 (36) 132 (131)

2. Получение совместного множественного выравнивания
Для каждого ортологического ряда были получены послеовательности. Идентификаторы каждого белка юыли модифицированы с помощью скрипта на Python так, чтобы они содержали информацию об ортологическом ряде: название_белка|ортологический_ряд. Были получены файлы K20860.fasta и K20861.fasta. Все последовательности были объединены в один файл и выровнены в программе MEGA (Muscle).
Проект Jalview
Выравнивание в формате fasta
Белки ряда K20860 выравнялись хуже, чем последовательности ряда K20861. В выравнивании не оказалось коротких белков которые содержат много гэпов в тех участках, где в других последовательностях выравнивания консервативные колонки, однако последоватльности ортологичесткого ряда K20860 в принципе существенно короче.
Сложно судить о гомологичности белков, поскольку в выравнивании целиком отсутствуют вертикальные блоки, хотя они и есть внутри варавнивания последовательностей каждого ряда. Поэтому мне кажется, что множественное выравнивание отсутствует, а гомологии между белками нет.

4. Построение филогенетического дерева
Поскольку множественного выравнивания не получилось (см. пункт 2), строить дерево бессмысленно.