Учебная страница курса биоинформатики,
год поступления 2012
Практикум 7
В день следующего занятия будет проверено наличие html страницы с результатами; проверять будем постепенно, если повезет - успеете доработать.
Известно несколько типов прокариотических систем секреции белков, См. статьи на P:/y12/term4/Texts. Каждая из этих систем состоит из нескольких (иногда многих) белков.
Задача. Дан белок из прокариотической системы секреции
- Определить, к какой системе принадлежит белок.
- Расшифровать термины GO, ассоциированные c белком и с этой системой.
- Определить функциональную роль данного белка в системе.
- Найти 10–15 ортологов (из разных родов, если возможно). Построить их выравнивание.
Сравнить состав генов в окрестностях +/- 15000 п.н. генов отобранных ортологов. Описать те гены, гомологи которых встречаются в нескольких окрестностях из удаленных бактерий. Отметить отнесённые к данной системе, по данным базы SEED.
- Вынести решение о принадлежности найденных ортологов системе и о генах системы, ко-локализованных с данным геном.
К следующему занятию на странице своего сайта необходимо представить следующую информацию
- Название и краткое текстовое описание системы секреции (можно – с картинкой)
- Табличку с расшифровкой всех терминов GO, связанных с данным белком/геном (см. ниже "Методы решения")
- Описание функциональной роли данного белка/гена в системе
Скриншот из SEED с картами окрестностей выбранных ортологов. В подписи указать параметры отбора ортологов. Ссылка на выравнивание в формате .jar (из JalView)
- Ссылка на таблицу Excel с информацией об ортологах и генах в окрестности.
- Обсуждение и выводы о:
- генах из окрестности, принадлежащих подсистеме, по аннотации SEED; их представленности в геномах; верно ли, что они вседа идут в одном и том же порядке и в той же ориентации?
- генах, ко-локализованных с данным во всех или в части геномов, но не отнесенных к подсистеме; связаны ли их функции с подсистемой?
- том, распространяется ли ортологичность генов на удаленные области окрестности (напр., в районе 20000–30000 п.н. от данного);
- всём интересном, замеченном вами;
- биологической роли ко-локализации генов подсистемы (на вашем примере).
Не забываете про подписи к рисункам и ссылки на источники!
Методы решения, по пунктам
- Способы решения
- прочитать аннотацию записи Uniprot
в записи Uniprot найти идентификаторы GO и изучить термины по БД GO
- BLAST: найти ближайших гомологов и для них выполнить п. a и b
Найти систему, используя KEGG; для этого искать ORFname (он же – LocusName) из поля GN записи Uniprot среди Genes БД KEGG. Иногда ссылка на KEGG есть в записи Uniprot в поле DR.
- Идентификаторы GO находятся в поле DR записи (ссылки на др. БД). Они бывают трех типов:
F — function, P — biological process, C — cellular component. Описание конкретного термина см. в БД GO (http://www.geneontology.org/). Помните, что термины GO образуют иерархическую систему понятий.
Используйте сервисы Uniprot. Найдите свою запись и записи близких гомологов (BLAST на Uniprot). В таблицу находок добавьте колонку Ontology (кнопка CUSTOMIZE). Если в вашей записи нет терминов GO или их мало, то возьмите из близкого гомолога. Используйте кнопку "Complete GO annotation", чтобы получить не только термины GO, указанные в записи, но и вышележащие по иерархии GO.
Составьте таблицу релевантных (относящихся к делу) терминов GO.
п.п. 3-6 рекомендуется выполнять в БД SEED (http://theseed.uchicago.edu/FIG/) или (http://seed-viewer.theseed.org/)
- Способы решения
SEED (FIG): Поиск BLASTP в своем или близкородственном геноме, т.е. в геноме другого штамма того же вида или даже в геноме другого, близкого, вида того же рода. (Пример: патогенные штамы E.coli имеют секреторную систему типа III, а не патогенные – не имеют.) Порог на сходство с гомологом: E < 1e-7.
KEGG, поиск по LocusName (секреторные системы описаны в KEGG не так хорошо, как метаболические пути, зато есть 3D картинки).
Запись Uniprot, расшифровка функции, ссылка на БД Pfam, изучение описаний доменов там, поиск статей в PubMed, BLAST против протеомов для поиска лучше аннотированного гомолога.
- SEED (FIG). Пройдите по ссылке на найденный ген. Откроется графическое окно с четырьмя гомологами из разных геномов. Регулируя число геномов (Number of regions), E-value cut off (меню Advanced), отключение галочек и "update with selected" для устранения похожих геномов, получите рекомендуемое число ортологов. Чем более удаленные геномы представлены, тем интереснее. Закажите сначала побольше ортологов (Number of regions = 50; можно и 100). Если все равно недостаточно, то увеличьте E-value cut off, например, до 1e-6. Рекомендации:
- Не оставляйте много геномов с одинаковыми или очень похожими окрестностями гомологов данного гена.
- Увеличьте размер окрестности (до 30000 п.н., т.е. +-15000 п.н.), чтобы проверить, нет ли гомологичных генов в большей окрестности.
- Повысьте порог E-value, чтобы получить более далекие гомологи, все ещё принадлежащие той же системе (если судить по окрестности).
Выравнивание ортологов генерируется по ссылке Sequence → Align (нужно белковое).
- По ссылке Tabular Region information получите таблицу всех генов окрестностей.
- Скачайте ее и откройте в Excel. Постройте сводную таблицу: по строкам – геномы, по столбцам – группы ортологов, тех, которые отмечены одним цветом и имеют один номер (колонка Set).
- В колонке SS отмечены номера подсистем, к которым отнесен данный ген (их бывает несколько).
- Название подсистемы можно узнать на странице SEED из всплывающего окна. Отметьте гены из подсистемы в новом столбце, это поможет ответить на все вопросы.
Выводы – они и в Африке выводы
- Для объяснения "потери" гена иногда полезно снизить E-value cut off для генов в окрестности (отличать от E-value cut off для исследуемого гена!): может быть, для каких-то генов сходство меньше... (Делается в меню Advanced)
- Чтобы посмотреть на описание в SEED системы целиком, найдите ее среди систем (subsystems, см. на головной странице). Там есть список ролей и таблица "геномы против ролей".
Дополнительные задания
- Найти геном, в котором гены подсистемы, колокализованные в вашей выборке, не колокализованы.
Те же задачи (и некоторые другие) можно решить в БД STRING (http://string-db.org/).
Cравните SEED и STRING на своем примере и опишите свои впечатления.