Учебная страница курса биоинформатики,
год поступления 2011

Практикум 7

Известно несколько типов прокариотических систем секреции белков, см., например, KEGG. См. также диск P: .. Term_4/InTexts. Они состоят из нескольких, или даже многих, генов.

Задача. Дан ген из прокариотической системы секреции

Таблица генов (белков)

Определить к какой системе принадлежит.
Расшифровать термины GO, ассоциированные c геном и с этой системой
Определить функциональную роль данного белка в системе
Найти ортологов в полных геномах бактерий
Отобрать 10-15 ортологов (из разных родов, если возможно)
Сравнить состав генов в окрестностях +/- 15000 п.н. отобранных ортологов. Описать те гены, гомологи которых встречаются в нескольких окрестностях из удаленных бактерий. Все ли они отнесены к данной системе, по данным SEED?
Вынести решение о принадлежности найденных ортологов системе и о генах системы, ко-локализованных с данным геном.

К следующему занятию (2 апр): На странице своего сайта представить следующую информацию

Название и краткое текстовое описание системы секреции (можно – с картинкой)
Расшифровку терминов GO, связанных с системой и данным белком/геном (по крайней мере, тех терминов, идентификаторы которых указаны в записи Uniprot вашего белка)
Сопоставленные карты окрестностей отобранных ортологов (скриншот из SEED)
Описание сходства и различий окрестностей ортологов (словесное или в виде таблицы), ваши наблюдения (или вопросы) по поводу этих окрестностей
Заключение: какие гены системы колокализованы с данным? Всегда ли одни и те же? Какая часть от общего числа основных генов системы (не четкого правила что значит основной ген; но если он найден в большинстве систем, то, наверное, он основной).

2 апр будет проверено наличие страниц по заданию; проверяться будут постепенно, если повезет - успеете доработать.

Методы решения, по пунктам

Способы решения
1. прочитать аннотацию записи
2. в записи найти идентификаторы GO и изучить термины по БД GO
3. BLAST: найти ближайших гомологов и для них выполнить п. a и b
4. Найти систему, используя KEGG; для этого искать ORFname (он же – LocusName) из поля GN записи Uniprot среди Genes БД KEGG.
Идентификаторы GO находятся в поле DR записи (ссылки на др. БД). Они бывают трех типов:

F – function, P – biological process, C – cellular component. Описание конкретного термина см. в БД GO (http://www.geneontology.org/). Помните, что термины GO образуют иерархическую систему понятий.

п.п. 3-6 рекомендуется выполнять в БД SEED (http://theseed.uchicago.edu/FIG/)

Способы решения
1. (Рекомендуемый) SEED (FIG): Поиск BLAST в своем или близкородственном геноме (BLAST там работает по одному геному только!?). Оценка сходства с гомологом - E < 1e-7; бывают случаи, когда в одном штамме такого гомолога нет, а в других - есть (так, патогенные E.coli имеют секреторную систему типа III, а не патогенные - не имеют)
2. KEGG, поиск по LocusName (не рекомендуемый: секреторные системы описаны в KEGG не также хорошо, как метаболические пути; зато есть 3D картинки)
3. Запись Uniprot, расшифровка функции, ссылка на БД Pfam изучение описаний доменов там, поиск статей в PubMed, BLAST против протеомов для поиска лучше аннотированного гомолога.
SEED (FIG) Пройдите по ссылке на найденный ген. Откроется графическое окно с 4я гомологами из разных геномов . Регулируя параметр числа геномов (Number of regions), E-value cut off (меню Advanced), отключение галочек и “update with selected” для устранения похожих геномов получите рекомендуемое число ортологов
То же, что 4. Закажите сначала побольше ортологов (Number of regions = 50). Если все равно недостаточно, то увеличьте E-value cut off, например, до 1e-6. Старайтесь
1. Не оставлять много геномов с одинаковыми или похожими окрестностями гомологов данного гена гена
2. Увеличить размер окрестности (до 30000 п.н., т.е. +-15000 п.н.), чтобы проверить нет ли гомологичных генов в большей окрестности
3. Повысить порог E-value чтобы получить более далеких гомологов, но все еще принадлежащих той же системе (если судить по окрестности).
На карте окрестностей гомологичные гены отмечены цветом и номером.
1. Для объяснения "потери" гена иногда полезно снизить E-value cut off для генов в окрестности (отличать от E-value cut off для исследуемого гена!): может быть, для каких-то генов сходство меньше... (Делается в меню Advanced)
2. Для того, чтобы посмотреть на описание SEED системы целиком найдите ее среди систем (subsystems, см. на головной странице). Там есть список ролей и таблица “геномы против ролей”.

(*) Те же задачи (и некоторые другие) можно решить в БД STRING (http://string-db.org/). Попробуйте и сравните эти две БД-х на своем примере.

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2011

Практикум 7

Задача. Дан ген из прокариотической системы секреции

К следующему занятию (2 апр): На странице своего сайта представить следующую информацию

Методы решения, по пунктам

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2011

Практикум 7

Задача. Дан ген из прокариотической системы секреции

К следующему занятию (2 апр): На странице своего сайта представить следующую информацию

Методы решения, по пунктам

Учебная страница курса биоинформатики,
год поступления 2011