Работа с KEGG ORTHOLOGY
1. Выбор пары ортологических рядов для дальнейшей работы
Я выбрала путь Selenocompound metabolism (Метаболизм селеносоединений) в базе данных KEGG. Выбранная мной реакция покрашена на рисунке:
Идентификатор | Количество белков (последовательностей) | Ссылка на страницу в KEGGБ |
K07309 | 104 | K07309 |
K07310 | 64 | K07310 |
K12527 | 115 | K12527 |
K12528 | 52 | K12528 |
K12529 | 54 | K12529 |
Общее число ортологических рядов 5. Выбраны были ряды с идентификаторами K07309 и K12527, так как количество белков наиболее близко к 200.
2. Получение совместного множественного выравнивания
Для обоих рядов я получила последовательности белков, получив таблицу идентификаторов из KEGG и затем используя сервис Retrieve/ID mapping Uniprot. С помощью скрипта script.py и scrip2.py я добавила в идентификаторы информацию об ортологическом ряде. Затем я объединила последовательности из 2х идентификаторов в один файл out_all.fasta. Далее я построила множественное выравнивание программой Muscle. Ссылка на выравнивание. Я открыла выравнивание в программе Jalview и раскрасила Clustalx. Ссылка на проэкт Jalview.
3. Проверка гомологичности белков в выравнивании
Из выравнивания были удалены последовательности плохо выровненые с идентификаторами J9UJM3_BRAPL|K12527 M5AG19_9ACTN|K12527 S6CKV6_9ACTN|K07309 S6C3Z0_9ACTN|K07309 A0A142H335_9ENTR|K07309
Затем были удалены последовательности белков, которые содержат много гэпов в тех участках, где в других последовательностях выравнивания консервативные колонки, с идентификаторами D0LLV9_HALO1|K12527 A9KPX0_CLOPH|K12527 D4LU42_9FIRM|K12527 D1BNJ0_VEIPT|K12527 H6LDW4_ACEWD|K12527 G0VMZ9_MEGEL|K12527 C7RE38_ANAPD|K12527 A0A0E1CF60_KLEPN|K07309 W8UKV1_KLEPN|K07309
Также были удалены короткие последовательности с идентификаторами S5N7Y6_SALBN|K07309 A0A0A6ZSV3_SHIDY|K07309 E2XH48_SHIDY|K07309 J9UR85_BRAPL|K12527 E2XH47_SHIDY|K07309 A0A0E0TYG4_ECOLX|K07309 A0A0A6ZSB3_SHIDY|K07309 S5MVS1_SALBN|K07309 A0A0E0TYG4_ECOLX|K07309 A0A0H2UZJ2_SHIFL|K07309 Q0T4I7_SHIF8|K07309 A0A0M1T8C0_KLEPN|K07309
Ссылка на выравнивание в Jalview.
Я считаю, что последовательности не выровнены, так как последовательности ряда K07309 довольно сильно отличаются от последовательностей ряда K12527. Хотя последовательности ряда K12527 довольно хорошо выровнены межды собой, а последовательности ряда K07309 между собой. Множественного выравнивания нет.
Дерево строить нельзя так как нет множественного выравнивания.
Ссылки:
© Кузнецова Ксения, 2015