Учебная страница курса биоинформатики,
год поступления 2015
Практикум 11. Задания по предсказанию генов прокариот
Задание рекомендуется выполнять с помощью написания скрипта на Python (за написание скрипта даются бонусные баллы). Однако есть и (непрямой) обходной путь, в котором требуемые данные можно посчитать через Excel; см. советы.
ВНИМАНИЕ: Если у вас возникают необъяснимые проблемы с EMBOSS (не качает плазмиду, выдает странные ошибки и т.п.) напишите письмо ДД с описанием проблемы: объясню как скачать тот же файл другим способом, если простым не получается.
ДОПОЛНИТЕЛЬНО: На диске P: в папке блока лежат некоторые статьи, в частности цитируемые в презентации.
Отчет по этому заданию выкладывайте в виде HTML-страницы на своем сайте и записывайтесь в ведомость для проверки.
Задание 1. Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для плазмиды
С помощью EMBOSS получите файл выданной вам плазмиды в формате gff. Извлеките из него информацию о координатах кодирующих белки последовательностей (начало, конец, ориентацию) - см. советы.
- Предскажите гены в выданной плазмиде с помощью Prodigal и извлеките информацию о координатах предсказанных генов (начало, конец, ориентацию).
- На странице с отчетом представьте следующую информацию:
Краткое описание выданной плазмиды: к какому организму она принадлежит, какой размер (в парах оснований) имеет, сколько генов на ней и сколько белок-кодирующих генов, а также другую информацию.
Команды, которыми вы запускали EMBOSS и Prodigal. Все используемые параметры объясните в тексте.
Оцените количественно следующие показатели (в виде таблицы или, лучше, диаграммы):
Число (и % от общего числа в исходном файле) генов, которые аннотированы в БД GenBank и для которых предсказание обоих концов гена с помощью Prodigal точно такое же.
Число (и %) генов, для которых аннотация только N-конца белка не совпадает с аннотацией Prodigal (ВНИМАНИЕ: не забывайте тут смотреть на ориентацию, "начало" гена не всегда означает N-конец белка!)
- Число (и %) генов, для которых аннотация только С-конца белка не совпадает с аннотацией Prodigal.
- Число (и %) генов, для которых аннотация обоих концов не совпадает с аннотацией Prodigal.
Представьте ссылку на проект Excel с вычислением показателей и опишите, каким образом оно производилось ИЛИ дайте ссылки на код скрипта на Python, используемого для выполнения задания, и входные данные к нему, а также кратко опишите алгоритм работы.
- Для нескольких (не менее двух) конкретных случаев, когда аннотация на одном из концов гена не совпала, попытайтесь объяснить причину несовпадения. Например, посмотрите соответствующее место в геномном браузере и приведите рисунки оттуда.
Задание 2* (необязательное). Сравнение предсказаний генов в базе данных GenBank и по данным Prodigal для геномной записи
Возьмите геномную запись (полный геном или хромосому) выданного вам в первом семестре организма и вычислите для нее показатели сравнения, указанные в задании 1.
Возьмите геномную запись NC_000913 (геном модельного организма Escherichia coli).
Сравните данные для вашего генома и генома E.coli. Сильно ли они различаются? В чем причина различий? Ответ обоснуйте.