Учебная страница курса биоинформатики,
год поступления 2012

Практикум 7

В день следующего занятия будет проверено наличие html страницы с результатами; проверять будем постепенно, если повезет - успеете доработать.

Известно несколько типов прокариотических систем секреции белков, См. статьи на P:/y12/term4/Texts. Каждая из этих систем состоит из нескольких (иногда многих) белков.

Задача. Дан белок из прокариотической системы секреции

Таблица белков

Определить, к какой системе принадлежит белок.
Расшифровать термины GO, ассоциированные c белком и с этой системой.
Определить функциональную роль данного белка в системе.
Найти 10–15 ортологов (из разных родов, если возможно). Построить их выравнивание.
Сравнить состав генов в окрестностях +/- 15000 п.н. генов отобранных ортологов. Описать те гены, гомологи которых встречаются в нескольких окрестностях из удаленных бактерий. Отметить отнесённые к данной системе, по данным базы SEED.
Вынести решение о принадлежности найденных ортологов системе и о генах системы, ко-локализованных с данным геном.

К следующему занятию на странице своего сайта необходимо представить следующую информацию

Название и краткое текстовое описание системы секреции (можно – с картинкой)
Табличку с расшифровкой всех терминов GO, связанных с данным белком/геном (см. ниже "Методы решения")
Описание функциональной роли данного белка/гена в системе
Скриншот из SEED с картами окрестностей выбранных ортологов. В подписи указать параметры отбора ортологов. Ссылка на выравнивание в формате .jar (из JalView)
Ссылка на таблицу Excel с информацией об ортологах и генах в окрестности.
Обсуждение и выводы о:
1. генах из окрестности, принадлежащих подсистеме, по аннотации SEED; их представленности в геномах; верно ли, что они вседа идут в одном и том же порядке и в той же ориентации?
2. генах, ко-локализованных с данным во всех или в части геномов, но не отнесенных к подсистеме; связаны ли их функции с подсистемой?
3. том, распространяется ли ортологичность генов на удаленные области окрестности (напр., в районе 20000–30000 п.н. от данного);
4. всём интересном, замеченном вами;
5. биологической роли ко-локализации генов подсистемы (на вашем примере).

Не забываете про подписи к рисункам и ссылки на источники!

Методы решения, по пунктам

Способы решения
1. прочитать аннотацию записи Uniprot
2. в записи Uniprot найти идентификаторы GO и изучить термины по БД GO
3. BLAST: найти ближайших гомологов и для них выполнить п. a и b
4. Найти систему, используя KEGG; для этого искать ORFname (он же – LocusName) из поля GN записи Uniprot среди Genes БД KEGG. Иногда ссылка на KEGG есть в записи Uniprot в поле DR.
Идентификаторы GO находятся в поле DR записи (ссылки на др. БД). Они бывают трех типов:

F — function, P — biological process, C — cellular component. Описание конкретного термина см. в БД GO (http://www.geneontology.org/). Помните, что термины GO образуют иерархическую систему понятий.

Используйте сервисы Uniprot. Найдите свою запись и записи близких гомологов (BLAST на Uniprot). В таблицу находок добавьте колонку Ontology (кнопка CUSTOMIZE). Если в вашей записи нет терминов GO или их мало, то возьмите из близкого гомолога. Используйте кнопку "Complete GO annotation", чтобы получить не только термины GO, указанные в записи, но и вышележащие по иерархии GO.

Составьте таблицу релевантных (относящихся к делу) терминов GO.

п.п. 3-6 рекомендуется выполнять в БД SEED (http://theseed.uchicago.edu/FIG/) или (http://seed-viewer.theseed.org/)

Способы решения
1. SEED (FIG): Поиск BLASTP в своем или близкородственном геноме, т.е. в геноме другого штамма того же вида или даже в геноме другого, близкого, вида того же рода. (Пример: патогенные штамы E.coli имеют секреторную систему типа III, а не патогенные – не имеют.) Порог на сходство с гомологом: E < 1e-7.
2. KEGG, поиск по LocusName (секреторные системы описаны в KEGG не так хорошо, как метаболические пути, зато есть 3D картинки).
3. Запись Uniprot, расшифровка функции, ссылка на БД Pfam, изучение описаний доменов там, поиск статей в PubMed, BLAST против протеомов для поиска лучше аннотированного гомолога.
SEED (FIG). Пройдите по ссылке на найденный ген. Откроется графическое окно с четырьмя гомологами из разных геномов. Регулируя число геномов (Number of regions), E-value cut off (меню Advanced), отключение галочек и "update with selected" для устранения похожих геномов, получите рекомендуемое число ортологов. Чем более удаленные геномы представлены, тем интереснее. Закажите сначала побольше ортологов (Number of regions = 50; можно и 100). Если все равно недостаточно, то увеличьте E-value cut off, например, до 1e-6. Рекомендации:
- Не оставляйте много геномов с одинаковыми или очень похожими окрестностями гомологов данного гена.
- Увеличьте размер окрестности (до 30000 п.н., т.е. +-15000 п.н.), чтобы проверить, нет ли гомологичных генов в большей окрестности.
- Повысьте порог E-value, чтобы получить более далекие гомологи, все ещё принадлежащие той же системе (если судить по окрестности).

Выравнивание ортологов генерируется по ссылке Sequence → Align (нужно белковое).

По ссылке Tabular Region information получите таблицу всех генов окрестностей.
1. Скачайте ее и откройте в Excel. Постройте сводную таблицу: по строкам – геномы, по столбцам – группы ортологов, тех, которые отмечены одним цветом и имеют один номер (колонка Set).
2. В колонке SS отмечены номера подсистем, к которым отнесен данный ген (их бывает несколько).
3. Название подсистемы можно узнать на странице SEED из всплывающего окна. Отметьте гены из подсистемы в новом столбце, это поможет ответить на все вопросы.
Выводы – они и в Африке выводы
1. Для объяснения "потери" гена иногда полезно снизить E-value cut off для генов в окрестности (отличать от E-value cut off для исследуемого гена!): может быть, для каких-то генов сходство меньше... (Делается в меню Advanced)
2. Чтобы посмотреть на описание в SEED системы целиком, найдите ее среди систем (subsystems, см. на головной странице). Там есть список ролей и таблица "геномы против ролей".

Дополнительные задания

Найти геном, в котором гены подсистемы, колокализованные в вашей выборке, не колокализованы.
Те же задачи (и некоторые другие) можно решить в БД STRING (http://string-db.org/).

Cравните SEED и STRING на своем примере и опишите свои впечатления.

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2012

Практикум 7

Задача. Дан белок из прокариотической системы секреции

К следующему занятию на странице своего сайта необходимо представить следующую информацию

Методы решения, по пунктам

Дополнительные задания

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2012

Практикум 7

Задача. Дан белок из прокариотической системы секреции

К следующему занятию на странице своего сайта необходимо представить следующую информацию

Методы решения, по пунктам

Дополнительные задания

Учебная страница курса биоинформатики,
год поступления 2012