Практикум 12
Задание 1
Найдя длину скэффолдов, я выбрал скэффлд 308.
Для того, чтобы понять таксономию организма, было необходимо провести blastx последовательности. Оказалось, Х5 - сборка контигов некоторого гриба. Для работы augustus я выбрал вид Candida guilliermondii. (http://bioinf.uni-greifswald.de/webaugustus/predictiontutorial.gsp#param_id)
В поле special parameters - вид, в Genome file - scaffold-308.fasta. Остальное по умолчанию.
Augustus создал архив predictions.tar.gz, в котором содержались файлы:
augustus.aa - транслированные с найденных генов белки.
augustus.cdsexons - содержит экзоны.
augustus.codingseq - содержит целые кодирующие последовательности.
augustus.gbrowse - содержит информацию(номер скэффолда, начало-конец, тип) в GBrowse.
augustus.gff - содержит таблицы для каждого гена, в таблицах есть координаты начала-конца каждого участка гена, информация об участках гена, также есть coding sequence и protein sequence.
augustus.gtf - то же, что и augustus.gbrowse, только добавлены поля “transcript id” в конце.
Белки содержатся в файле augustus.aa, их всего 4.
Белок 1:
E-value находок достаточно низкий, а идентичность наоборот высока (>38%), так что скорей всего представленные на картинке последовательности - гомологи. Но все находки - гипотетические, поэтому аннотировать не получится.
Белок 2:
Тут картина даже лучше, чем у первого белка. Можно даже предположить, что рассматриваемый белок - хеликаза.
Белок 3:
Одна находка с высоким e-value. Не гомолог.
Белок 4:
Часть белков можно считать гомологами и, судя по всему, рассматриваемый белок - протеин-киназа
Задание 2
Сравнение аннотации Refseq и AUGUSTUS одного гена человека.
Ген - Homo sapiens DNA damage-induced apoptosis suppressor
Таблица со сравнением аннотаций
Ген DDIAS находится на 11 хромосоме, его координаты chr11:82901695-82934657, ориентация + Судя по таблице и визуализации, AUGUSTUS выдал две похожие аннотации - в обеих второй экзон - лишний и отсутствуют два средних экзона, так же он укоротил начало и удлинил конец.