Занятие 7.

Срок выполнения заданий — утро 6 апреля 2010 г.

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Откройте страницу UniProt с описанием заданного белка. Перейдите по гиперссылке "Complete GO annotation..." на страницу браузера QuickGO EBI. Рассмотрите открывшуюся таблицу, найдите гиперссылки на странички с описанием терминов. Опишите функцию белка в таблице, шаблон см. ниже.

      Описание функции белка xxx_Ecoli в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где?      
      Зачем, для чего?      
      Молекулярный механизм?      
      Специфичность?      

    3. Описание термина GO
    4. Выберите 3 наиболее содержатальных, на Ваш взгляд, термина GO, ассоциированных с изучаемым белком, по одному термину из каждого словаря GO. Проведите поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology. Для каждого определите, есть ли точные синонимы, какие термины являются родительскими, а какие — дочерними, определите типы связей между ними, запишите их в табличку, см. ниже.

      Подсказка. На странице с описанием термина найдите гиперссылку на страницу с отображением родительских, дочерних терминов и терминов-сибсов. Откройте эту страницу и выберите режим графического просмотра. Имейте в виду, что при этом будут показаны только те термины, которые отображаются в текстовом представлении дерева, где часть ветвей может быть свернута.
      Если не получится, то на страничке с описанием термина щелкните по кнопке "Tree Browser" в правом меню, затем проверьте, что дочерние термины открыты, и щелкните по кнопке "Graphical View".

      Прикрепите к отчету три файла с изображением графа родительских, дочерних терминов и терминов-сибсов.

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
             
             
             

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из (таксон)
    2. Сначала найдите латинское название заданного таксона, например, в википедии. Затем на сайте NCBI в БД Taxonomy определите ранг таксона и его идентификатор (NCBI_TaxID). Краткое описание таксона внесите в отчет. В описании укажите русское, английское и латинское название таксона, его ранг и NCBI_TaxID.

      Затем изучите, как в SRS проиндексировано поле ProteinExistence БД UniProt. Проведите поиск белков из заданного таксона с разной аннотацией по этому полю, заполните табличку. Для того, чтобы учесть возможность повторения одной и той же последовательности, каждый раз проверяйте скольким записям в UNIREF100 сооветствует найденная выборка (используйте опцию Link в окне SRS с находками).

      К табличке добавьте краткое резюме.

      Соотношение между реальными и гипотетическими белками из......(по данным UniProt)

        Количество в UniProt Количество в UniRef100
      Существование белка доказано экспериментально    
      Известны только соответствующие транскрипты    
      Гипотетический белок, предсказан по гомологии    
      Иные предсказанные гипотетические белки    

      *Если полученные результаты вас удивят, попробуйте повторить то же для поиска по SWISS-Prot.

    3. Определение качества функциональной аннотации в UniProt
    4. Определите с помощью одного запроса к SRS, сколько из реальных (см. выше) белков заданного таксона аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции (см. Guide to GO Evidence Codes).

      В отчет внесите запрос, количество записей и вывод.

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. В таблице с заданием указан таксон (идентификатор которого вы уже знаете) и некоторая биологическая функция. Переведите описание функции на английский и проведите поиск среди всех терминов GO на сайте консорциума Gene Ontology. Выберите самый подходящий идентификатор GO и проведите поиск всех белков из заданного таксона с таким идентификатором GO.

      В отчет внесите русское название функции, перевод его на английский, выбранный GO ID, словарь, к которому он относится, запрос к SRS, количество находок.

      Сохраните находки в виде файла с последовательностями в формате FASTA, прикрепите файл к отчету.

    3. Определение главной функции в большом списке белков
    4. В таблице с заданием указан белок для этого упражнения. В папке P:\y08\Term4\GO найдите соответствующий текстовой файл. В этом файле – список белков, полученный в результате массового эксперимента. Список включает и заданный белок. Ваша задача определить – белки с какими функциями доминируют в этом списке. Используйте для этого программу GOstat.

      В отчете приведите самые перепредставленные в выборке термины GO, укажите к каким онтологиям они относятся. В кратком резюме поясните, белки с какими функциями доминируют в выборке.

      *Попробуйте сравнить в резюме список перепредставленных терминов с терминами, ассоциированными с заданным белком.

      Примечания. Чем меньше P-value, тем ниже вероятность, что частота термина GO близка к его частоте в случайной выборке терминов. Обычно никто не верит результатам с P-value>0.01 Обратите внимание на то место в списке терминов , где значение P-value резко возрастает, это признак порогового значения.