Работа с KEGG ORTHOLOGY

1. Выбор пары ортологических рядов для дальнейшей работы

Я выбрала путь Selenocompound metabolism (Метаболизм селеносоединений) в базе данных KEGG. Выбранная мной реакция покрашена на рисунке:

Ортологические ряды
Идентификатор Количество белков (последовательностей) Ссылка на страницу в KEGGБ
K07309 104 K07309
K07310 64 K07310
K12527 115 K12527
K12528 52 K12528
K12529 54 K12529

Общее число ортологических рядов 5. Выбраны были ряды с идентификаторами K07309 и K12527, так как количество белков наиболее близко к 200.

2. Получение совместного множественного выравнивания

Для обоих рядов я получила последовательности белков, получив таблицу идентификаторов из KEGG и затем используя сервис Retrieve/ID mapping Uniprot. С помощью скрипта script.py и scrip2.py я добавила в идентификаторы информацию об ортологическом ряде. Затем я объединила последовательности из 2х идентификаторов в один файл out_all.fasta. Далее я построила множественное выравнивание программой Muscle. Ссылка на выравнивание. Я открыла выравнивание в программе Jalview и раскрасила Clustalx. Ссылка на проэкт Jalview.

3. Проверка гомологичности белков в выравнивании

Из выравнивания были удалены последовательности плохо выровненые с идентификаторами J9UJM3_BRAPL|K12527 M5AG19_9ACTN|K12527 S6CKV6_9ACTN|K07309 S6C3Z0_9ACTN|K07309 A0A142H335_9ENTR|K07309

Затем были удалены последовательности белков, которые содержат много гэпов в тех участках, где в других последовательностях выравнивания консервативные колонки, с идентификаторами D0LLV9_HALO1|K12527 A9KPX0_CLOPH|K12527 D4LU42_9FIRM|K12527 D1BNJ0_VEIPT|K12527 H6LDW4_ACEWD|K12527 G0VMZ9_MEGEL|K12527 C7RE38_ANAPD|K12527 A0A0E1CF60_KLEPN|K07309 W8UKV1_KLEPN|K07309

Также были удалены короткие последовательности с идентификаторами S5N7Y6_SALBN|K07309 A0A0A6ZSV3_SHIDY|K07309 E2XH48_SHIDY|K07309 J9UR85_BRAPL|K12527 E2XH47_SHIDY|K07309 A0A0E0TYG4_ECOLX|K07309 A0A0A6ZSB3_SHIDY|K07309 S5MVS1_SALBN|K07309 A0A0E0TYG4_ECOLX|K07309 A0A0H2UZJ2_SHIFL|K07309 Q0T4I7_SHIF8|K07309 A0A0M1T8C0_KLEPN|K07309

Ссылка на выравнивание в Jalview.

Я считаю, что последовательности не выровнены, так как последовательности ряда K07309 довольно сильно отличаются от последовательностей ряда K12527. Хотя последовательности ряда K12527 довольно хорошо выровнены межды собой, а последовательности ряда K07309 между собой. Множественного выравнивания нет.

Дерево строить нельзя так как нет множественного выравнивания.

Ссылки:

На главную


© Кузнецова Ксения, 2015