Занятие 7.

Срок выполнения заданий — утро 6 апреля 2010 г.
Результаты следует представить на своей веб-страничке. Любой формат допускается, в том числе, и Word'овский

  1. Знакомство с терминологией GO
    1. Опишите функцию "своего" белка с помощью аннотации Gene Ontology
    2. Откройте страницу UniProt с описанием своего (см. семестр I) белка. Перейдите по гиперссылке "Complete GO annotation..." на страницу браузера QuickGO EBI. Рассмотрите открывшуюся таблицу, найдите гиперссылки на странички с описанием терминов. Опишите функцию белка в таблице, шаблон см. ниже.

      Описание функции белка xxx_Ecoli в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где?      
      Зачем, для чего?      
      Молекулярный механизм?      
      Специфичность?      

    3. Опишите 3 термина GO, ассоциированных с вашим белком
    4. Выберите 3 наиболее содержатальных, на Ваш взгляд, термина GO, ассоциированных с изучаемым белком, по одному термину из каждого словаря GO. Проведите поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology. Для каждого определите, есть ли точные синонимы, какие термины являются родительскими, а какие — дочерними, определите типы связей между ними, запишите их в табличку, см. ниже.

      Подсказка. На странице с описанием термина найдите гиперссылку на страницу с отображением родительских, дочерних терминов и терминов-сибсов. Откройте эту страницу и выберите режим графического просмотра. Имейте в виду, что при этом будут показаны только те термины, которые отображаются в текстовом представлении дерева, где часть ветвей может быть свернута.
      Если не получится, то на страничке с описанием термина щелкните по кнопке "Tree Browser" в правом меню (я его не нашел, но можно обойтись и без него - Бурков :(), затем проверьте, что дочерние термины открыты, и щелкните по кнопке "Graphical View".

      Прикрепите к отчету три файла с изображением графа родительских, дочерних терминов и терминов-сибсов.

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
             
             
             

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определите число реальных и гипотетических белков из (таксон)
    2. Сначала найдите латинское название заданного таксона, например, в википедии. Затем на сайте NCBI в БД Taxonomy определите ранг таксона и его идентификатор (NCBI_TaxID). Краткое описание таксона внесите в отчет. В описании укажите русское, английское и латинское название таксона, его ранг и NCBI_TaxID.

      Затем изучите, как в SRS проиндексировано поле ProteinExistence БД UniProt. Проведите поиск белков из заданного таксона с разной аннотацией по этому полю, заполните табличку. Для того, чтобы учесть возможность повторения одной и той же последовательности, каждый раз проверяйте скольким записям в UNIREF100 сооветствует найденная выборка (используйте опцию Link в окне SRS с находками).

      К табличке добавьте краткое резюме.

      Соотношение между реальными и гипотетическими белками из......(по данным UniProt)

        Количество в UniProt Количество в UniRef100
      Существование белка доказано экспериментально    
      Известны только соответствующие транскрипты    
      Гипотетический белок, предсказан по гомологии    
      Иные предсказанные гипотетические белки    

      *Если полученные результаты вас удивят, попробуйте повторить то же для поиска по SWISS-Prot.

    3. (*) Определение качества функциональной аннотации в UniProt
    4. Определите с помощью одного запроса к SRS, сколько из реальных (см. выше) белков заданного таксона аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции (см. Guide to GO Evidence Codes).

      Наверное, следует использовать подсказки к заданию III.1. Поэтому выполняйте это задание после III.

      В отчет внесите запрос, количество записей и вывод.

  3. Использование GO для работы с массовыми данными
    1. Опишите протеом бактерии, полный геном которой секванирован, используя термины GO. Бактерию выберите самостоятельно
    2. В протоколе укажите:
      • Число белков протеома
      • Какому проценту записей приписан хоть один термин GO?
      • Термины из каких словарей (функция, процесс, локализация) встречаются чаще (гистограмма)?
      • Перечислите несколько самых часто встречающихся терминов из каждого словаря.
      • Ваши комментарии. Удивило ли что-нибудь? Как можно объяснить результаты?

      Файл Excel с результатами присоедините к отчёту.

      Запишите число белков в протеоме выбранной бактерии (по ссылкам со страницы бактерий => proteoms => genome statistics).
      Используйте SRS ( ) для поиска в банке Uniprot.
      Проверьте, что запрос по имени организма выдает правильное число записей белков (по крайней мере, расхождение невелико)
      Зайдите в продвинутую форму запроса (Extended query form). Особенность запросов с помощью этой формы состоит в том, что на одну запись белка выдается несколько отдельных результатов. Так, запрос по базе данных GO выдаст по отдельность все ссылки на GO из каждой записи, где они есть.
      Запрос следует составить так.
      В поле organism name укажите навание бактерии.
      Найдите блок про ссылки на другие базы данных (поля DBname и DBxref). В поле DBname укажите имя базы данных - GO, в поле DBxref не указывайте ничего, так как вас интересуют все ссылки. Search. Получив результат => Save, отметьте что положено, save with view: complete entries и полученный файл откройте в Excel. Для более быстрого получения результата подскажу как преобразовать все в Excel.
      • Вставьте пустую колонку A и пустую строку 1.
      • В A2 - формулу =ЕСЛИ(B2="ID";D2;A1) и распространите ее. Превратите в значения. Заменой на пустое значение уберите текст "parent: ". Получили в колонке A в каждой строке правильные идентификаторы последовательностей.
      • Удалите строки, содержащие "ID" в колонке B (пересортировав по колонке B)
      • Из столбца C удалите ненужные символы заменой, чтобы остались идентификатор GO вида GO:0014567
      • Колонку D разбейте по столбцам, чтобы получить в отдельной колонке тип словаря GO (F, P или C)
      • Вставьте пустую строку 1 для заголовков и надпишите колоки. Для сводной таблицы обязательны непустые названия всех колонок!
      • Составьте сводные таблицы.
        I. ID последовательностей по строкам, тип словаря - по столбцам, количество таких строк - в ячейке.
        II. GO по строкам, тип словаря - по столбцам, количество таких строк - в ячейке. Превратите эту табл. в значения, отсортируйте по общему числу по убыванию, добавьте названия терминов GO (с помощью ВПР=vlookup).
      • Получите ответы на вопросы и опишите все в протоколе.


      Я все проделал для одной бактерии, и мне понравилось :) ААл.

    3. Получение выборки последовательностей белков с заданной функцией
    4. В таблице с заданием указан таксон (идентификатор которого вы уже знаете) и некоторая биологическая функция. Переведите описание функции на английский и проведите поиск среди всех терминов GO на сайте консорциума Gene Ontology. Выберите самый подходящий идентификатор GO и проведите поиск всех белков из заданного таксона с таким идентификатором GO.

      В отчет внесите русское название функции, перевод его на английский, выбранный GO ID, словарь, к которому он относится, запрос к SRS, количество находок.

      Сохраните находки в виде файла с последовательностями в формате FASTA, прикрепите файл к отчету.

    5. (*) Определение главной функции в большом списке белков
    6. В таблице с заданием указан белок для этого упражнения. В папке P:\y09\Term4\GO найдите соответствующий текстовой файл. В этом файле – список белков, полученный в результате массового эксперимента. Список включает и заданный белок. Ваша задача определить – белки с какими функциями доминируют в этом списке. Используйте для этого программу GOstat.

      В отчете приведите самые перепредставленные в выборке термины GO, укажите к каким онтологиям они относятся. В кратком резюме поясните, белки с какими функциями доминируют в выборке.

      *Попробуйте сравнить в резюме список перепредставленных терминов с терминами, ассоциированными с заданным белком.

      Примечания. Чем меньше P-value, тем ниже вероятность, что частота термина GO близка к его частоте в случайной выборке терминов. Обычно никто не верит результатам с P-value>0.01 Обратите внимание на то место в списке терминов , где значение P-value резко возрастает, это признак порогового значения.