Предсказание генов эукариот
- Предскажите гены X5 с помощью AUGUSTUS С помощью программы parse.py было найдено число kb для каждого из скэффолдов, после чего был выбран скэффолд 489 .
Для скэффолда был проведен blastx, так как может быть ситуация, в которой в силу избыточности генетического кода и эволюционного давления, осуществляющего отбор функционирующих белков, гомология между двумя белками может быть больше, чем гомология между двумя генами, кодирующими их. Было установлено, что X5 - сборка генома гриба, далее было необходимо выбрать подходящий вид из списка augustus:
http://bioinf.uni-greifswald.de/webaugustus/predictiontutorial.gsp#param_id Я выбрала организм Candida tropicalis. Далее необходимо запустить augustus. В поле special parameters было введено название вида Candida tropicalis, в поле Genome file - файл scaffold-489.fasta. Остальные параметры по умолчанию. Хотелось бы отметить собачку которая перепрыгивает через заборчик. При запуске вверху появляется строка: Job submitted → waiting for execution → computing → finished!Через примерно 5 минут augustus закончил работу, осталось толко скачать архив и распаковать его (как - написано в Instructions).
-
Augustus создает 6 файлов:
augustus.aa - найденные белки( транслированные с найденных генов). augustus.cdsexons содержит экзоны (coding sequence exons). augustus.codingseq содержит целую кодирующие последовательности. augustus.gbrowse содержит информацию(номер скэффолда, начало-конец, тип) в родном GBrowse. augustus.gff содержит таблицы для каждого гена, в таблицах есть координаты начала-конца каждого участка гена, информация об участках гена, также есть coding sequence и protein sequence. augustus.gtf содержит ту же информацию, что и файл augustus.gbrowse, только добавлены поля “transcript id” в конце.
Далее с помощью blastp были найдены гомологи для пяти найденных белков( последовательностей из augustus.aa ). Результаты представлены ниже:
- Сравнение аннотации Refseq и AUGUSTUS одного гена человека. В поисковую строку USCC был введен запрос alcohol dehydrogenase, после чего была выбрана ADH1A (uc062ykw.1) at chr4:99281815-99291003 - alcohol dehydrogenase 1A (class I), alpha polypeptide (from HGNC ADH1A). Далее была показана экзон-интронная структура по аннотациям Refseq и AUGUSTUS.
Рис 1: Предсказания экзонов 4, 5, 6 с пом. AUGUSTUS Рис 2: Предсказания экзонов 5, 6, 7 с пом. AUGUSTUS AUGUSTUS не смог предсказать экзоны 1,2,7,8,9 и к тому же предсказал целых 52 гена. Далее по ссылке tools -> table tools была сделана таблица, которая была приведена в необходимый формат с помощью скрипта p.py. Сводная таблица: table_refseq.csv