Учебная страница курса биоинформатики,
год поступления 2011
Практикум 7
Известно несколько типов прокариотических систем секреции белков, см., например, KEGG. См. также диск P: .. Term_4/InTexts. Они состоят из нескольких, или даже многих, генов.
Задача. Дан ген из прокариотической системы секреции
- Определить к какой системе принадлежит.
- Расшифровать термины GO, ассоциированные c геном и с этой системой
- Определить функциональную роль данного белка в системе
- Найти ортологов в полных геномах бактерий
- Отобрать 10-15 ортологов (из разных родов, если возможно)
- Сравнить состав генов в окрестностях +/- 15000 п.н. отобранных ортологов. Описать те гены, гомологи которых встречаются в нескольких окрестностях из удаленных бактерий. Все ли они отнесены к данной системе, по данным SEED?
- Вынести решение о принадлежности найденных ортологов системе и о генах системы, ко-локализованных с данным геном.
К следующему занятию (2 апр): На странице своего сайта представить следующую информацию
- Название и краткое текстовое описание системы секреции (можно – с картинкой)
- Расшифровку терминов GO, связанных с системой и данным белком/геном (по крайней мере, тех терминов, идентификаторы которых указаны в записи Uniprot вашего белка)
- Сопоставленные карты окрестностей отобранных ортологов (скриншот из SEED)
- Описание сходства и различий окрестностей ортологов (словесное или в виде таблицы), ваши наблюдения (или вопросы) по поводу этих окрестностей
- Заключение: какие гены системы колокализованы с данным? Всегда ли одни и те же? Какая часть от общего числа основных генов системы (не четкого правила что значит основной ген; но если он найден в большинстве систем, то, наверное, он основной).
2 апр будет проверено наличие страниц по заданию; проверяться будут постепенно, если повезет - успеете доработать.
Методы решения, по пунктам
- Способы решения
- прочитать аннотацию записи
- в записи найти идентификаторы GO и изучить термины по БД GO
- BLAST: найти ближайших гомологов и для них выполнить п. a и b
Найти систему, используя KEGG; для этого искать ORFname (он же – LocusName) из поля GN записи Uniprot среди Genes БД KEGG.
- Идентификаторы GO находятся в поле DR записи (ссылки на др. БД). Они бывают трех типов:
F – function, P – biological process, C – cellular component. Описание конкретного термина см. в БД GO (http://www.geneontology.org/). Помните, что термины GO образуют иерархическую систему понятий.
п.п. 3-6 рекомендуется выполнять в БД SEED (http://theseed.uchicago.edu/FIG/)
- Способы решения
(Рекомендуемый) SEED (FIG): Поиск BLAST в своем или близкородственном геноме (BLAST там работает по одному геному только!?). Оценка сходства с гомологом - E < 1e-7; бывают случаи, когда в одном штамме такого гомолога нет, а в других - есть (так, патогенные E.coli имеют секреторную систему типа III, а не патогенные - не имеют)
KEGG, поиск по LocusName (не рекомендуемый: секреторные системы описаны в KEGG не также хорошо, как метаболические пути; зато есть 3D картинки)
Запись Uniprot, расшифровка функции, ссылка на БД Pfam изучение описаний доменов там, поиск статей в PubMed, BLAST против протеомов для поиска лучше аннотированного гомолога.
- SEED (FIG) Пройдите по ссылке на найденный ген. Откроется графическое окно с 4я гомологами из разных геномов . Регулируя параметр числа геномов (Number of regions), E-value cut off (меню Advanced), отключение галочек и “update with selected” для устранения похожих геномов получите рекомендуемое число ортологов
- То же, что 4. Закажите сначала побольше ортологов (Number of regions = 50). Если все равно недостаточно, то увеличьте E-value cut off, например, до 1e-6. Старайтесь
- Не оставлять много геномов с одинаковыми или похожими окрестностями гомологов данного гена гена
- Увеличить размер окрестности (до 30000 п.н., т.е. +-15000 п.н.), чтобы проверить нет ли гомологичных генов в большей окрестности
- Повысить порог E-value чтобы получить более далеких гомологов, но все еще принадлежащих той же системе (если судить по окрестности).
- На карте окрестностей гомологичные гены отмечены цветом и номером.
- Для объяснения "потери" гена иногда полезно снизить E-value cut off для генов в окрестности (отличать от E-value cut off для исследуемого гена!): может быть, для каких-то генов сходство меньше... (Делается в меню Advanced)
- Для того, чтобы посмотреть на описание SEED системы целиком найдите ее среди систем (subsystems, см. на головной странице). Там есть список ролей и таблица “геномы против ролей”.
(*) Те же задачи (и некоторые другие) можно решить в БД STRING (http://string-db.org/). Попробуйте и сравните эти две БД-х на своем примере.