Учебная страница курса биоинформатики,
год поступления 2016
Практикум 5
Отчет о задании должен появиться 31 марта.
Цель задания: поискать с помощью программы MEME сайт связывания транскрипционного фактора, регулирующего синтез пуринов у одной из гаммапротеобактерий.
Этапы работы
Найдите в таблице против своей фамилии латинское название бактерии.
- Зайдите на сайт Uniprot и откройте расширенный поиск (гиперссылка "Advanced" справа вверху)
- В верхней паре окошек: слева выберите поле "Keyword", справа начните набирать слова "Purine biosynthesis". Система подскажет полное написание этого "ключевого слова" (т.н. ключевые слова в Uniprot берутся из фиксированного списка).
В следующей паре окошек слева выберите "Organism", в правое скопируйте род и вид бактерии из таблицы. В данном случае НЕ НАДО пользоваться подсказкой системы и добавлять что-то ещё! Дело в том, что для многих видов бактерий имеется большое количество штаммов, и легко нарваться на плохо аннотированный штамм, для которого ничего не найдётся.
- Щёлкните по изображению лупы, чтобы запустить поиск. Дождитесь результата.
- На странице с результатом слева найдите гиперссылку "Reviewed" и щёлкните по ней (нам нужны только хорошо аннотированные белки).
- В левой части страницы вы увидите список, озаглавленный "Popular organisms". Список состоит из мнемоник различных штаммов данного вида, после каждой мнемоники в скобках — число записей Swiss-Prot, аннотированных как участвующие в биосинтезе пуринов и относящихся к данному штамму (для некоторых видов штамм может быть всего один, в этом случае пропустите следующий пункт).
- Выберите штамм, для которого имеется не менее 8 белков, аннотированных нужным образом, и щёлкните по соответствующей гиперссылке.
- Если в полученном списке слишком много (более 10) белков, выберите 8–10 из них. Занесите в протокол: полное название выбранного штамма, его Uniprot-мнемонику, список выбранных белков (первые три столбца, из третьего — только выделенное жирным шрифтом), список имён генов (четвёртый столбец).
- Найдите в ENA/EMBL полный геном выбранной бактерии. Проще всего это сделать так: зайти в Uniprot на страницу записи одного из белков (гиперссылка в первом столбце) и найти там слово EMBL, после чего пройти по гиперссылке "Genomic DNA". Скачайте полную запись EMBL (справа Download: TEXT).
- Для каждого из генов выбранных белков: найдите этот ген в скачанной записи EMBL и запишите координаты Upstream-региона из 100 нуклеотидов (то есть 100 нуклеотидов с 5'-стороны от статового кодона гена). Не забывайте, что ген может быть как на прямой, так и на обратной цепи (относительно записи EMBL)!
- Вырежьте из файла EMBL последовательности всех выбранных Upstream-регионов и поместите их в отдельный fasta-файл. Названия последовательностей придумайте сами, но они должны включать названия генов (указание: вместо seqret лучше использовать descseq, чтобы сразу переименовывать последовательности).
На kodomo выполните команду ememe -help. Определите, как запустить ememe так, чтобы поиск производился на обеих цепях ДНК и чтобы программа выдала 3 различных мотива (остальные параметры можно оставить по умолчанию). Обратите внимание на то, как задать имя поддиректории, куда будут положены результаты, в том числе html-файл.
- Проведите поиск мотивов.
Отчёт
Отчёт выкладывайте на свой веб-сайт. Отчёт должен включать:
- Полное название бактерии (как в поле OS записей Uniprot), его мнемонику, сколько аннотированных (Reviewed) записей с ключевым словом "Purine biosynthesis" находится в Uniprot.
- Список (лучше в виде таблицы) выбранных белков.
- AC записи EMBL, описывающей геном бактерии.
- Список генов с координатами каждого гена в записи EMBL (можно добавить к таблице белков, можно отдельно).
- Гиперссылку на fasta-файл c вырезанными Upstream-регионами.
- Гиперссылку на результат работы MEME.
Некоторые выводы: сколько хороших (e-value < 0.001) мотивов нашлось, во всех ли последовательностях представлен каждый из них, и вообще всё, заслуживающее внимания.
Дополнительные задания
(Первые два имеет смысл делать, если при выполнении обязательного задания нашёлся хотя бы один хороший мотив).
Найдите в Интернете LOGO для сайта связывания пуринового репрессора E.coli и сравните его с LOGO вашего мотива (мотивов).
Проведите программой emast поиск найденных мотивов в полном геноме вашей бактерии. Если будут хорошие находки помимо тех, что попадают в Upstream-области выбранных генов, проаннотируйте их: попали они в кодирующие или в межгенные области? Если в межгенные, то какие гены могут регулироваться так же, как первоначально отобранные гены? Указание: чтобы провести поиск программой emast в заданных последовательнсотях, нужно отредактировать файл meme.txt, выданный программой ememe, поменяв в строке DATAFILE= MEME/meme.fasta имя файла на нужное. Файл с последовательностями должен быть в fasta-формате. После этого отредактированный файл meme.txt (можно и с другим названием) подаётся на вход программе emast как "mfile" (читайте tfm emast).
- Найдите в Интернете и изучите веб-интерфейс к MEME и связанным программам. Опишите свои впечатления.