Учебная страница курса биоинформатики,
год поступления 2015
Занятие 5. Работа с KEGG ORTHOLOGY
Отчёт по заданию должен быть выложен на сайт, со ссылкой со страницы семестра, к утру 24 марта 2017 г.
Цель данного задания – проверить, являются ли члены разных ортологических рядов KEGG гомологичными белками, и проанализировать их филогенетические отношения.
1. Выбор пары ортологических рядов для дальнейшей работы
Выберите любой метаболический путь в базе данных KEGG. На странице отчета приведите название выбранного пути на английском и его перевод на русский язык.
Найдите в выбранном пути любую реакцию, которую катализирует несколько (не менее двух) ортологических рядов белков. Если реакцию катализирует более двух рядов белков, выберите любые два из них (при наведении мыши на EC такой реакции вы увидите список из рядов; один ряд имеет формат идентификатора Kzzzzz). Желательно, чтобы в каждом из выбранных рядов было не более 200 белков, иначе будет сложнее работать дальше. Сохраните ссылки на страницы этих рядов в БД KEGG ORTHOLOGY и их идентификаторы, укажите общее число ортологических рядов и объясните критерии выбора, если их было больше двух; приведите эту информацию на отчетной странице.
Приведите на отчетной странице количество последовательностей в каждом выбранном ортологическом ряде.
Сохраните картинку метаболического пути (не для отдельного организма, а общего – Reference Pathway) с данной реакцией покрашенной выбранным вами цветом (см. подсказку ниже); приведите ее на отчетной странице.
2. Получение совместного множественного выравнивания
Получите последовательности для каждого ортологического ряда (см. подсказку ниже).
Модифицируйте идентификаторы каждого белка так, чтобы они содержали информацию об ортологическом ряде (например, принадлежащие ортологическому ряду K000001 белки XYZ_HUMAN и XYZ_MOUSE должны иметь идентификаторы XYZ_HUMAN|K00001 и XYZ_MOUSE|K00001) – это удобнее всего сделать с помощью простого скрипта на Python.
Постройте множественное выравнивание всех последовательностей из всех обнаруженных ортологических рядов с помощью программы Muscle. Сохраните множественное выравнивание и дайте на него ссылку на отчетной странице.
Откройте множественное выравнивание в программе Jalview (см. руководства по работе с Jalview: ДД, ААл), покрасьте множественное выравнивание с помощью любой окраски, учитывающей химическую природу аминокислотных остатков. Сохраните проект Jalview ('.jvp' или '.jar' в старой версии) и добавьте ссылку на проект на свою отчетную страницу.
3. Проверка гомологичности белков в выравнивании
Добавьте в отчет пункт Проверка выравнивания и проведите эту проверку по такому плану:
- Есть ли в выравнивании белки, которые очень плохо выровнены с остальными? Относятся ли они все к отдельному ортологическому ряду? Если да, то удалите эти белки из выравнивания перед следующим шагом и опишите свои действия.
Есть ли в выравнивании короткие белки, которые содержат много гэпов в тех участках, где в других последовательностях выравнивания консервативные колонки? Если да, то удалите эти белки из выравнивания перед следующим шагом и опишите на отчетной странице свои действия. ВАЖНО: если в проекте Jalview и в дальнейшей работе останутся такие короткие последовательности, это незачёт!
Добавьте в отчет пункт Гомологичность белков в выравнивании и ответьте на вопрос - выровнены ли между собой последовательности, т.е. существует ли множественное выравнивание вообще? Опишите свои наблюдения подробнее.
4. Построение филогенетического дерева
- Если дерево строить нельзя, объясните почему.
Если дерево можно строить, то постройте филогенетическое дерево (программой MEGA, методом Neighbor-Joining, со 100 бутстреп-репликами). Сохраните изображение дерева и приведите его на отчетной странице.
- На основании своих данных ответьте на следующие вопросы:
- Распадается ли дерево на клады, соответствующими отдельным ортологическим рядам, которые вы рассматривали? Если да, то что можно сказать о величине поддержки бутстрепом ветвей, отделяющих эти клады от остального дерева?
- Есть ли на дереве тривиальные ветви, длины которых существенно отличаются от длин прочих тривиальных ветвей? Если да, то посмотрите на эти последовательности на выравнивании: насколько хорошо выровнены эти белки?
- Если у вас есть еще какие-то комментарии и соображения, опишите их.
Подсказки и рекомендации
Подсказка: получить последовательности белков одного ортологического ряда KEGG можно так. Щелкните на кнопку "UniProt" и вы получите список идентификаторов белков в виде таблицы. Скопируйте эту таблицу в Excel (или LibreCalc и т.п.), выделите вторую колонку таблицы (с идентификаторами Uniprot вида, например, CRP_ECOLI) и скопируйте список белков в буфер обмена. Этот список можно подавать сервису "Retrieve/ID mapping" БД Uniprot и получить последовательности.
Подсказка: покрасить ту или иную реакцию можно средствами самого KEGG так, как вам хочется. На странице с метаболическим путем выберите пункт "User data mapping". В появившееся окно можно вводить любой идентификатор (для реакции, для ортологичного ряда, для конкретного вещества, код EC), и после пробела давать цвета, в которые нужно покрасить встретившиеся на этой карте элементы.
Например: попробуйте следующие варианты для пути "Fatty acid degradation":
- R04754 #00FFFF,yellow
- 1.3.3.6 #00FFFF,yellow
- K06445 #00FFFF,yellow