Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2015

Практикум 12. Задания по предсказанию генов эукариот

ДОПОЛНИТЕЛЬНО: На диске P: в папке блока лежат некоторые статьи, в частности цитируемые в презентации.

Отчет по этому заданию выкладывайте в виде HTML-страницы на своем сайте и записывайтесь в ведомость для проверки.

Задание 1. Описание выданного контига и одного из генов на нем, для которого предсказан альтернативный сплайсинг

  1. Откройте выданный вам контиг в геномном браузере на сайте NCBI (для этого найдите соответствующую запись в базе Nucleotide и нажмите на 'Graphics'.

  2. Найдите вручную ген, для которого по данным базы данных предсказывается альтернативный сплайсинг.
  3. Получите файл контига в формате fasta (можете пользоваться EMBOSS или сайтом NCBI)

  4. На странице отчета укажите:
    • какому организму принадлежит контиг (латинское название, русское название; можно какую-то фотографию со ссылкой на источник; таксономия - не обязательно очень подробная);
    • размер контига в парах оснований;
    • число генов и число белок-кодирующих последовательностей (CDS) по аннотации базы.

    • изображение (в хорошем качестве, чтобы было видно элементы рисунка) мРНК и изоформ одного из белков (любого на выбор, возьмите самый интересный). Если такого нет - вставьте изображение другого.
    • (необязательно) какие еще особенности присутствуют в выданном контиге? Есть ли что-то необычное?

Задание 2. Предскажите гены и белок-кодирующие области в выданном контиге

  1. Предскажите гены и белок-кодирующие области в выданном контиге с помощью web-сервера AUGUSTUS

    • используйте режим Prediction;

    • укажите в качестве организма, из генома которого будут браться параметры модели, ближайший по таксономии к вашему (обязательно отразите на страничке отчета, какой организм был выбран);
    • другие опции выбирайте по необходимости.
  2. На странице отчета укажите:
    • какой организм был выбран для параметров модели;
    • что означают выбранные параметры модели (см. ниже пример параметров для запуска, которые вы увидите после запуска) и почему они были выбраны - опишите своими словами;
    • какие типы данных выдает программа (названия файлов и их содержимое - имеет смысл оформить в виде таблицы), приведите ссылку на файл, содержащий предсказания генов;
    • оцените в целом и обоснуйте совпадение предсказаний генов программой AUGUSTUS с предсказаниями из базы данных (многое совпадает, мало совпадает, ничего не совпадает...).
    • совпадает ли предсказание программы AUGUSTUS для гена, изображение для которого вы приводили в задании 1, с данными базы данных? Опишите различия. С чем они связаны, по вашему мнению?

Prediction job ID: XXX
AUGUSTUS parameter project identifier: YYY
Genome file: sequence.fasta
User set UTR prediction: true
Report genes on: both strands
Alternative transcripts: none
Allowed gene structure: predict any number of (possibly partial) genes
Ignore conflictes with other strand: false