в данном задании использовался контиг с идентификатором NW_003215385.1 (скачать последовательность в формате fasta), принадлежащий организму Perkinsus marinus ATCC 50983
Таксономия
Perkinsus marinus вызывает заболевание устриц Perkinsosis
Picture: Perkinsus marinus cells in the connective tissue of the digestive gland and the gut epithelium of an infected Crassostrea virginica oyster.
Длина контига: 133821 bp. В нем 45 генов, из которых 40 белоккодирующих.
Генов, для которых известен вариант альтернативного сплайсинга, в данном геноме не было. Поэтому был выбран просто ген Pmar_PMAR005773 с координатами complement(69,836..70,693), длинной 858. Для него известно один варианта mRNA и соответсвующий вариант белка. Это 40S рибосомальный белок S15a. У mRNA идентификатор XM_002785409.1 (длина - 516аа), а у белка идентификатор XP_002785455.1 (длина - 130аа)
Надо предсказать гены в данном контиге с помощью веб-сервиса AUGUSTUS. В качестве организма, из генома которого выбирались параметры модели, был взят Toxoplasma gondii. Из всех предложенных организмов только два относились к царству Alveolata как и Perkinsus marinus. Это Tetrahymena thermophila и Toxoplasma gondii. Но при том второй ближе первого: относится к той же группе Myzozoa. Остальные параметры были взяты по умолчанию.
В результате был получен архив predictions.tar.gz со следующими файлами:
augustus.aa | Файл с аминокислотными последовательностями, транслированными из предсказанных генов (формат fasta) |
augustus.cdsexons | Файл с последовательностями экзонов предсказанных генов (формат fasta) |
augustus.codingseq | Файл с кодирующими последовательностями предсказанных генов (формат fasta) |
augustus.gbrowse | Файл с информацией о координатах, ориентации, структурных особенностях и т.д. pre-mRNA предсказанных генов для геномного браузера |
augustus.gff | Файл со всей информацией: нуклеотидная, аминокислотная последовательности, координаты, ориентация (формат gff) |
augustus.gtf | Файл с предсказанными генами в формате .gtf |
Из 45 анотированных генов AUGUSTUS предсказал всего 14, при том все белоккодирующие. При том у 3 аминокислотных последоватеьлностей соответсвующих генов начало (небольшой кусок) совпадало с аннотированными, у 1 совпал участок в середине, а у 10 последовательностей ничего не совпадало. Ну и разумеется ген, рассмотренный в ранее сервером AUGUSTUS предсказан не был.