Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2012

Практикум 7

В день следующего занятия будет проверено наличие html страницы с результатами; проверять будем постепенно, если повезет - успеете доработать.

Известно несколько типов прокариотических систем секреции белков, См. статьи на P:/y12/term4/Texts. Каждая из этих систем состоит из нескольких (иногда многих) белков.

Задача. Дан белок из прокариотической системы секреции

Таблица белков

К следующему занятию на странице своего сайта необходимо представить следующую информацию

  1. Название и краткое текстовое описание системы секреции (можно – с картинкой)
  2. Табличку с расшифровкой всех терминов GO, связанных с данным белком/геном (см. ниже "Методы решения")
  3. Описание функциональной роли данного белка/гена в системе
  4. Скриншот из SEED с картами окрестностей выбранных ортологов. В подписи указать параметры отбора ортологов. Ссылка на выравнивание в формате .jar (из JalView)

  5. Ссылка на таблицу Excel с информацией об ортологах и генах в окрестности.
  6. Обсуждение и выводы о:
    1. генах из окрестности, принадлежащих подсистеме, по аннотации SEED; их представленности в геномах; верно ли, что они вседа идут в одном и том же порядке и в той же ориентации?
    2. генах, ко-локализованных с данным во всех или в части геномов, но не отнесенных к подсистеме; связаны ли их функции с подсистемой?
    3. том, распространяется ли ортологичность генов на удаленные области окрестности (напр., в районе 20000–30000 п.н. от данного);
    4. всём интересном, замеченном вами;
    5. биологической роли ко-локализации генов подсистемы (на вашем примере).

Не забываете про подписи к рисункам и ссылки на источники!

Методы решения, по пунктам

  1. Способы решения
    1. прочитать аннотацию записи Uniprot
    2. в записи Uniprot найти идентификаторы GO и изучить термины по БД GO

    3. BLAST: найти ближайших гомологов и для них выполнить п. a и b
    4. Найти систему, используя KEGG; для этого искать ORFname (он же – LocusName) из поля GN записи Uniprot среди Genes БД KEGG. Иногда ссылка на KEGG есть в записи Uniprot в поле DR.

  2. Идентификаторы GO находятся в поле DR записи (ссылки на др. БД). Они бывают трех типов:

F — function, P — biological process, C — cellular component. Описание конкретного термина см. в БД GO (http://www.geneontology.org/). Помните, что термины GO образуют иерархическую систему понятий.

Используйте сервисы Uniprot. Найдите свою запись и записи близких гомологов (BLAST на Uniprot). В таблицу находок добавьте колонку Ontology (кнопка CUSTOMIZE). Если в вашей записи нет терминов GO или их мало, то возьмите из близкого гомолога. Используйте кнопку "Complete GO annotation", чтобы получить не только термины GO, указанные в записи, но и вышележащие по иерархии GO.

Составьте таблицу релевантных (относящихся к делу) терминов GO.

п.п. 3-6 рекомендуется выполнять в БД SEED (http://theseed.uchicago.edu/FIG/) или (http://seed-viewer.theseed.org/)

  1. Способы решения
    1. SEED (FIG): Поиск BLASTP в своем или близкородственном геноме, т.е. в геноме другого штамма того же вида или даже в геноме другого, близкого, вида того же рода. (Пример: патогенные штамы E.coli имеют секреторную систему типа III, а не патогенные – не имеют.) Порог на сходство с гомологом: E < 1e-7.

    2. KEGG, поиск по LocusName (секреторные системы описаны в KEGG не так хорошо, как метаболические пути, зато есть 3D картинки).

    3. Запись Uniprot, расшифровка функции, ссылка на БД Pfam, изучение описаний доменов там, поиск статей в PubMed, BLAST против протеомов для поиска лучше аннотированного гомолога.

  2. SEED (FIG). Пройдите по ссылке на найденный ген. Откроется графическое окно с четырьмя гомологами из разных геномов. Регулируя число геномов (Number of regions), E-value cut off (меню Advanced), отключение галочек и "update with selected" для устранения похожих геномов, получите рекомендуемое число ортологов. Чем более удаленные геномы представлены, тем интереснее. Закажите сначала побольше ортологов (Number of regions = 50; можно и 100). Если все равно недостаточно, то увеличьте E-value cut off, например, до 1e-6. Рекомендации:
    • Не оставляйте много геномов с одинаковыми или очень похожими окрестностями гомологов данного гена.
    • Увеличьте размер окрестности (до 30000 п.н., т.е. +-15000 п.н.), чтобы проверить, нет ли гомологичных генов в большей окрестности.
    • Повысьте порог E-value, чтобы получить более далекие гомологи, все ещё принадлежащие той же системе (если судить по окрестности).

Выравнивание ортологов генерируется по ссылке Sequence → Align (нужно белковое).

  1. По ссылке Tabular Region information получите таблицу всех генов окрестностей.
    1. Скачайте ее и откройте в Excel. Постройте сводную таблицу: по строкам – геномы, по столбцам – группы ортологов, тех, которые отмечены одним цветом и имеют один номер (колонка Set).
    2. В колонке SS отмечены номера подсистем, к которым отнесен данный ген (их бывает несколько).
    3. Название подсистемы можно узнать на странице SEED из всплывающего окна. Отметьте гены из подсистемы в новом столбце, это поможет ответить на все вопросы.
  2. Выводы – они и в Африке выводы :)

    1. Для объяснения "потери" гена иногда полезно снизить E-value cut off для генов в окрестности (отличать от E-value cut off для исследуемого гена!): может быть, для каких-то генов сходство меньше... (Делается в меню Advanced)
    2. Чтобы посмотреть на описание в SEED системы целиком, найдите ее среди систем (subsystems, см. на головной странице). Там есть список ролей и таблица "геномы против ролей".

Дополнительные задания

  1. Найти геном, в котором гены подсистемы, колокализованные в вашей выборке, не колокализованы.
  2. Те же задачи (и некоторые другие) можно решить в БД STRING (http://string-db.org/).

Cравните SEED и STRING на своем примере и опишите свои впечатления.