Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2015

Практикум 11. Задания по предсказанию генов прокариот

Задание рекомендуется выполнять с помощью написания скрипта на Python (за написание скрипта даются бонусные баллы). Однако есть и (непрямой) обходной путь, в котором требуемые данные можно посчитать через Excel; см. советы.

ВНИМАНИЕ: Если у вас возникают необъяснимые проблемы с EMBOSS (не качает плазмиду, выдает странные ошибки и т.п.) напишите письмо ДД с описанием проблемы: объясню как скачать тот же файл другим способом, если простым не получается.

ДОПОЛНИТЕЛЬНО: На диске P: в папке блока лежат некоторые статьи, в частности цитируемые в презентации.

Отчет по этому заданию выкладывайте в виде HTML-страницы на своем сайте и записывайтесь в ведомость для проверки.

Задание 1. Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды

  1. С помощью EMBOSS получите файл выданной вам плазмиды в формате gff. Извлеките из него информацию о координатах кодирующих белки последовательностей (начало, конец, ориентацию) - см. советы.

  2. Предскажите гены в выданной плазмиде с помощью Prodigal и извлеките информацию о координатах предсказанных генов (начало, конец, ориентацию).
  3. На странице с отчетом представьте следующую информацию:
    • Краткое описание выданной плазмиды: к какому организму она принадлежит, какой размер (в парах оснований) имеет, сколько генов на ней и сколько белок-кодирующих генов, а также другую информацию.

    • Команды, которыми вы запускали EMBOSS и Prodigal. Все используемые параметры объясните в тексте.

    • Оцените количественно следующие показатели (в виде таблицы или, лучше, диаграммы):

      • Число (и % от общего числа в исходном файле) генов, которые аннотированы в БД GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же.

      • Число (и %) генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal (ВНИМАНИЕ: не забывайте тут смотреть на ориентацию, "начало" гена не всегда означает N-конец белка!)

      • Число (и %) генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal.
      • Число (и %) генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal.
    • Представьте ссылку на проект Excel с вычислением показателей и опишите, каким образом оно производилось ИЛИ дайте ссылки на код скрипта на Python, используемого для выполнения задания, и входные данные к нему, а также кратко опишите алгоритм работы.

  4. Для нескольких (не менее двух) конкретных случаев, когда аннотация на одном из концов гена не совпала, попытайтесь объяснить причину несовпадения. Например, посмотрите соответствующее место в геномном браузере и приведите рисунки оттуда.

Задание 2* (необязательное). Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для геномной записи

  1. Возьмите геномную запись (полный геном или хромосому) выданного вам в первом семестре организма и вычислите для нее показатели сравнения, указанные в задании 1.

  2. Возьмите геномную запись NC_000913 (геном модельного организма Escherichia coli).

  3. Сравните данные для вашего генома и генома E.coli. Сильно ли они различаются? В чем причина различий? Ответ обоснуйте.