Учебная страница курса биоинформатики,
год поступления 2014
В процессе...
Предсказание генов эукариот
1. Предскажите гены X5 с помощью AUGUSTUS
Отчёт должен содержать
- название организма, параметры генома которого взяты для предсказания генов
- название и длину контига
- список предсказанных генов (можно как ссылка на Excel таблицу)
- их экзон-интронной струтктуры
- отметку у каждого гена имеет ли его продукт достоверных гомологов; если да, то указать сходство, таксономию и название ближайшего гомолога
- комментарии
Материал
Контиги сборки X5 лежат на диске P: (/home/export/samba/public/) в директории y14/term3/block2/pr8.
- Выберите себе один контиг:
- длиной от 20 кб до 100 kb (лучше взять небольшой контиг чтобы генов было не слишком много; но обязательно контиг должен содержать как минимум пять предсказанных генов!), используйте программу infoseq (пакет EMBOSS) для получения длин контигов в сборке;
- не берите первый попавшийся подходящий, а то у всех будет одно и то же.
Этапы
- Предсказание генов с помощью AUGUSTUS
Зайдите на сайт AUGUSTUS http://bioinf.uni-greifswald.de/webaugustus, вам нужна ссылка "AUGUSTUS prediction submission".
- Почитайте "prediction tutorial", по крайней мере просмотрите, чтобы иметь представление, что может быть не так, если сервис выдаст ошибку.
- Не вводите свой E-mail, сервис почему-то иногда не может отправить письмо и выдает ошибку (что-то у них пока не работает).
- Выберите самого близкого родственника из списка организмов, для которых уже произведено обучение сервиса.
- Запустите BLAST для своего контига (сами разберитесь, какая версия BLAST это должна быть, опишите это в отчете!) и проведите таксономический анализ результатов.
Определите, какой из организмов в списке AUGUSTUS наиболее близок для вашего контига.
- Остальные параметры по умолчанию.
Обязательно сохраните адрес страницы с описанием статуса задания (вида http://bioinf.uni-greifswald.de/webaugustus/prediction/show/xxxxxxxxxxxxxxxxxx), загрузить результаты можно будет только с этой страницы!
- Расчеты в вашем случае должны занять несколько (десятков) минут, хотя если сервер сильно загружен, то может и больше.
- Результат предсказания - архив tar.gz.
- Если не знаете, как его распаковать - почитайте "prediction tutorial".
- Опишите, какие файлы есть в архиве, и что в них содержится, по вашему мнению.
–
- Проверка предсказания с помощью BLAST
- Разберитесь, какой из файлов, выданных AUGUSTUS, содержит последовательности предсказанных белков в fasta формате.
- Выберите 5 белков для проверки с помощью BLAST, для каждого из них:
- разберитесь, правильно ли предсказаны границы гена, экзон-интронная структура, или находка вообще скорее всего ошибочна;
- попробуйте установить функцию каждого белка.
- В отчете приведите все необходимое для обоснования каждого заключения.
2. Сравните аннотацию Refseq и AUGUSTUS одного гена человека
В отчёте приведите
- координаты гена: хромосома, от, до, ориентация
- описание экзон-интронной структуры в каждой из аннотаций в формате:
- номер экзона, длина, кодирующий/некодирующий/частично кодирующий, остаток от деления длины кодирующей части на 3
- номер интрона, длина
- скриншот окна браузера с двумя аннотациями гена
- кмментарии
Материалы и методы
- Используйте UCSC Genome Browser (адрес найдите через Google) или его зеркало в Европе
- UCSC - University of California, Santa Crus
- Используйте последнюю сборку генома hg38
- Ген выберите самостоятельно и найдите его в геноме человека поиском в Genome Browser
Подсказки
- Оставьте только три трэка: base position, Refseq и AUGUSTUS
- Трэки регулируются нижним меню
Используйте верхнее меню Tools => Table Browser для получения интрон-экзонной структуры в текстовом виде
- выберите position, включающую границы гена, но не больше - чтобы не ловить соседние гены!
- выберите Group: Genes and gene prediction
- выберите трэк Refseq genes (след. раз - AUGUSTUS)
- output format: selected fields ...
- get output и в меню отметьте нужные поля; в таблице понятно написано что в каком поле
- получите таблицу и импортируйте в Excel для разбора
- оставьте в таблице одну - самую полную изоформу - для двух аннотаций (изоформы - белки, полученные альтернативными сплайсингами)