Срок выполнения задания — утро дня следующего занятия
Форма представления: на персональной веб-странице в любом формате.
Вариант выполнения: скопировать страничку задания, а затем ее отредактировать!
Рабочая директория: ~/Term2/Block3/Practice10.
Задания со (*) не обязательны для зачёта, по увеличивают рейтинг.

Занятие 10. Эволюционные домены. БД Pfam, InterPro.

  1. Опишите доменную архитектуру данного вам белка в соответствии с БД Pfam .
  2. Поиском либо по идентификатору UniProt своего белка, либо по его последовательности, найдите описание его доменной архитектуры. Разные виды поиска доступны с главной страницы. Поиск по идентификатору - в окошке Jump to...
    В отчет вставьте табличку следующего вида:

    Доменная структура белка XXXX_BACSU по данным Pfam

    Cхема из Pfam:
    Пояснения к схеме
    Pfam AC Pfam ID Полное название семейства доменов
    (по-русски! и желательно с кратким пояснением)
    Положение в последовательности белка XXXX_BACSU Клан
    1. PF00218 IGPS Семейство доменов названо по названию фермента индол-3-глицерофосфатсинтетазы,
    фермента, катализирующего четвёртый этап биосинтеза триптофана...
    4–252 Клан TIM_barrel (CL0036), содержит 54 семейства, у пяти неизвестна функция (PFAM ID начинается с DUF)
    2.      

  3. Выберите один из доменов вашего белка и приведите следующие данные о нем.
  4. Зайдите на страницу домена и найдите на ней (или по ссылке с неё) требуемую информацию.
    • Во сколько разных архитектур входит домен?
    • Для какого числа белков, содержащих домен, известна последовательность?
    • Для какого числа разных белков, содержащих домен, определена пространственная структура (домена или всего белка)?
      По ссылке "Stuctures" найдете нужную информацию.
    • Сохраните выравнивание "seed" фрагментов белков, соответствующих домену.
      Меню "Alignments", выберите формат MSF, Seed (а не Full - все последовательности), "Generate", сохраните выравнивание и присоедините к отчёту.
    • (*) Оцените в отчёте достоверность этого выравнивания: по вашему мнению, подтверждает ли это выравнивание гомологичность доменов ? (см. презентацию).
      Рекомендуетcя в выравнивание добавить строчку для разметки консервативных участков. В Genedoc - Import => Input, имя последовательности "homologous", последовательность - как минимум, один символ, например, "-".
      Для разметки "Edit" => "Residue edit mode" и в новой строчке ставьте буквы X на консервативных участках.
      Другой вариант - использовать скрипт generate_markup.py, который создает нужную псевдопоследовательностьв fasta формате. Потом её можно импортировать в выравнивание. Запускается так: python generate_markup.py. На вход подается файл с указаниями от какой - до какой позиции выравнивания поставить требуемый символ.
      Скрипт лежит на диске P в директории y10/Term2/Blok3/Practices/Pr_10

  5. Выберите доменную архитектуру, в которой присутствует два или более разных доменов. Опишите, как часто и в каких организмах встречаются домены по отдельности.
    • Как выбрать доменную архитектуру: варианты.
      - Ваш белок включает два или более доменов - выбирайте его доменную архитектуру.
      - Проверьте в какие доменные архитектуры входит единственный домен вашего белка. Как правило, одна из них - подходящая; берите ее. Щелчком по домену попадаете на страничку домена. В меню сверху выбираете "Achitecture".
      - Если и этот способ не сработал, то возьмите любой другой белок (например, с сайта другого студента)
    • Достаточно взять два домена из выбранной архитектуры
    • Как узнать число последовательностей с данным доменом в таксоне.
      - Откройте страничку домена.
      - Перейдите по ссыке "Species", далее - "Tree".
      - Выберите "Expand to depth" = 2
      - Разберитесь где и что указано и заполните таблицу, аналогичную приведенной ниже.
    • Результат представьте в виде таблицы, см. ниже образец.
    • В кратком резюме сделайте вывод о распространенности доменов.

    Представленность домена PFxxxx в организмах разных видов

    Таксон
    Количество белков с доменом PFxxxxxx.
    Эукариоты Зеленые растения  
    Грибы  
    Животные  
    Остальные эукариоты  
    Археи  
    Бактерии  
    Вирусы  

  6. Определите, в скольких разных белках Bacillus subtilis встречаются домены, представленные в заданном белке
  7. Откройте страничку с таксономическом деревом Pfam для первого домена. С помощью контекстного поиска (<Ctrl+F> в большинстве браузеров) найдите таксон. Поставьте перед названием таксона галочку и щелкните по кнопке View graphically в правом меню. Изучите открывшуюся страничку и занесите результаты в табличку, см. ниже. Повторите то же для каждого из доменов заданного белка. Ниже таблички приведите число белков с точно такой же доменной организацией, что и заданный белок. Сделайте краткий вывод о частоте доменов в белках изучаемой бактерии.

    Представленность изучаемых доменов в белках Bacillus subtilis

    PFAM ID Bacillus subtilis
    1.    
         

  8. Приведите не менее трёх примеров разных доменных перестроек
  9. Для каждого из доменов заданного белка рассмотрите странички с вариантами доменной организации и подберите наиболее яркие примеры доменных перестроек. Для каждого примера в отчете приведите идентификатор PFAM и название домена, две картинки, иллюстрирующие перестройки, и краткое описание перестройки.

    Пример:
    Домен PF00532 (Peripla_BP_1) встречается в сочетании с разными доменами, причем бывает как на N-, так и на С-конце последовательности.
    AGLR_RHIME:
    B5YAI5_DICT6:

    Чем нетривиальнее пример, тем лучше!! Обратите внимание на однодоменные и многодоменные варианты, на дупликации доменов, на разрывы в последовательности доменов и т.п.

  10. (*) Сравните описание мотивов в разных БД.
  11. Откройте главную страничку БД InterPro. По идентификатору UniProt вашего белка найдите описание всех подписей (signatures), интегрированных в InterPro, т.е. имеющих InterPro ID. Картинку с разметкой всех мотивов вставьте в отчет. В отчете ответьте на следующие вопросы.
    • Как называется самый короткий мотив? В какой БД он описан? Как называется тип распознающего правила?
    • Как называется самый длинный мотив? В какой БД он описан? Как называется тип распознающего правила?
    • Какие структурные подписи интегрированы в InterPro?
    • Отличаются ли границы структурных доменов от границ доменов Pfam?