Предсказание генов эукариот

Предсказание генов с помощью AUGUSTUS

Из сборки генома X5 я выбрала один скэффолд (scaffold-266), длина которого составляет 47841 п.о. Ссылка на последовательность этого скэффолда в формате fasta: scaffold266.fasta. Для этого скэффолда с помощью сервера AUGUSTUS были предсказаны входящие в его состав гены.
Для этого сначала я проверила с помощью blast, какой вид из списка организмов, для которых уже произведено обучение сервиса, имеет наибольшее сходство с выбранным скэффолдом. Для этого я использовала алгоритм blastx, который транслирует поданную ему неклеотидную последовательность в шести рамках и ищет гомологичные белки в банке данных белков. В данном случае этот алгоритм более эффективен, чем обычный blastn, так как белки более консервативны, чем нуклеиновые кислоты, в них происходит меньше мутаций, так как каждая аминокислота может быть необходимой для обеспечения какой-нибудь функции или поддержания правильной третичной структуры белка. Поиск в blastx показал, что наибольшее сходство имеет белок из Candida tropicalis, поэтому в дальнейшем я использовала именно этот организм для работы с AUGUSTUS.
Результат работы AUGUSTUS включает 6 файлов:

  • augustus.aa содержит последовательности белков, транслированные с найденных генов, в формате fasta. В моем случае в этом файле записано 14 белковых последовательностей (для удобства - данный файл в формате fasta);
  • augustus.cdsexons содержит нуклеотидные последовательности экзонов найденных генов в формате fasta. Каждый экзон обозначается как cds, экзоны могут идти не по порядку (для генов, закодированных на комплементарной цепи), стоп-кодон не указывается. В каждом из найденных генов, кроме девятого, по два экзона, в девятом только один;
  • augustus.codingseq содержит целую кодирующую последовательность, то есть именно то, что полностью транслируется в белок. По сути, это объединенные в правильном порядке последовательности экзонов, включающие старт- и стоп-кодоны;
  • augustus.gbrowse представляет информацию в формате, воспринимаемом геномным браузером GBrowse;
  • augustus.gff содержит подробную информацию о найденных генах в виде таблицы. Указаны координаты различных участков гена: интронов, CDS, всего гена и его транскрипта, старт- и стоп-кодонов. Также приведены последовательности гена и продукта-белка;
  • augustus.gtf содержит ту же информацию, что и файл augustus.gff, однако без последовательностей и без разделения на отдельные гены, то есть в виде единой таблицы.

В файле genes.xlsx представлена информация о найденных генах, их экзон-интронной структуре и наличии достоверных гомлогов их продуктов. Более подробную информацию о гомологах можно посмотреть в таблице 1. Для пяти продуктов генов, у которых были найдены гомологи, я проверила, правильно ли предсказаны кодирующие их гены на основании генов гомологичных белков. Поиск гомологов осуществлялся алгоритмом blastp.

Таблица 1. Результаты поиска гомологов пяти белков, предсказанных с помощью AUGUSTUS, алгоритмом blastp.
№ гена Название гомолога Функция гомолога Организм E-value Query cover
6 Гипотетический белок Относится к семейству пептидаз C12 Helicosporidium sp. 3e-10 61%
8 Субъединица B протонной вакуолярной АТФазы Каталитическая субъединица фермента, осуществляющего перенос протона через мембрану с затратой АТФ для повышения кислотности внутриклеточных компартментов, таких как лизосомы Mortierella verticillata 2e-66 94%
9 Участок белка АТФазы Часть вакуолярной АТФазы, функции описаны выше Kazachstania unispora 4e-46 100%
10 Субъединица B протонной вакуолярной АТФазы Функции описаны выше Rozella allomycis 1e-39 85%
12 Белок с неизвестной функцией Предоложительно, имеет гидролазную активность, а также участок с эстеразной активностью Stylonychia lemnae 6e-21 98%

Шестой ген кодирует белок, который имеет относительно слабое сходство с найденным гомологом. Возможно, это вызвано тем, что найденные экзоны не соответствуют реальным экзонам гена. Выравнивание, представленное на рисунке 1, начинается с 71 остатка в subject и с 54 остатка в query, при этом высокое сходство имеют только отдельные участки. Ген Helicosporidium sp. имеет 5 экзонов, в то время как ген исследуемого организма - только 2. Скорее всего, AUGUSTUS не нашел некоторые экзоны в начале гена. При этом найденные экзоны могут иметь немного неправильные границы, так как середина вырванивания имеет меньшее сходство, чем крайние регионы. Однако эти отличия могут быть вызваны реальным расхождением в последовательностях белков двух разных организмов.

Выравнивание продукта гена 6

Рисунок 1. Выравнивание продукта шестого гена с лучшей находкой blastp из организма Helicosporidium sp..

Восьмой ген кодирует субъединицу белка АТФазы, высококонсервативного фермента эукариот. Большое сходство последовательностей говорит о том, что найденные экзоны, скорее всего, правильные. Однако гены, кодирующие эту субъединицу у Mortierella verticillata и Allomyces macrogynus (вторая по счету находка, E-value составляет 5e-55, query cover также 94%), имеют 8 и 5 экзонов соответственно. Гомологичные белки имеют гораздо большую длину (примерно 500 а.о.), чем искомый (139 а.о.). Можно предположить, что AUGUSTUS нашел только 2 первых экзона этого гена, но сказать, сколько именно должно быть экзонов, нельзя.
Девятый ген, кодирующий часть того же фермента, возможно, следует объединить с восьмым. В этом случае мы получим более полную последовательность гена.
Я попробовала найти в blastp последовательность белка, являющуюся объединением продуктов восьмого и девятого генов. Лучшая находка принадлежит организму Plutella xylostella (капустная моль), имеет E-value 1e-71 и query cover 97%. Однако она все равно не соответствует целому гену гомолога. Также гомолог объединенной последовательности был найден в Mortierella verticillata (третья находка). Изучение посдедовательности этого белка показало, что между восьмым и девятым геном должен быть еще как минимум 1 экзон, к тому же, даже объединенный ген не покрывает ген Mortierella verticillata целиком.
Добавление последовательности десятого гена не приведет к нормальному результату, так как blastp относит этот белок к другому семейству, а именно ATP-synthase_ab_C superfamily (альфа и бета цепи АТФ-синтазы, C-концевой домен). Однако этот белок, скорее всего, также относится ко всему комплексу вакуолярной АТФазы, закодированной в этом скэффолде.

Двенадцатый ген кодирует белок с неизвестными функциями. При поиске в blastp последовательности продукта этого гена было найдено два участка сходства с лучшей находкой. Скорее всего, эти находки соответствуют двум экзонам двенадцатого гена. Так как сходство достаточно высокое, эти экзоны можно считать правильными, несмотря на то, что в гене Stylonychia lemnae экзоны не указаны. Однако находка не покрывает весь гомологичный белок, поэтому можно предположить, что должен быть еще экзон до предсказанного гена и еще один между имеющимися экзонами. Однако длина интрона составляет всего 666 п.о. Возможно, этот ген предсказан ошибочно или белок имеет другого, более близкого гомолога.

Сравнение аннотаций Refseq и AUGUSTUS гена DGCR8

У человека ген DGCR8 кодирует белок DGCR8 (DiGeorge syndrome chromosomal/critical region 8), являющийся компонентом микропроцессора. Функции данного комплекса связаны с процессингом микроРНК. Белок DGCR8 связывается с ферментом Drosha, являющимся РНКазой III, и образует микропроцессор, который разрезает при-микроРНК - длинную двухцепочечную РНК, транскрибирующуюся в клетке. После разрезания образуются короткие двухцепочечные фрагменты с концевой шпилькой, называемые пре-микроРНК. Далее эти фрагменты преобразуются в микроРНК с помощью фермента Dicer. В целом, микроРНК осуществляют в клетке важные (хотя и не до конца изученные) регуляторные функции.
Ген DGCR8 закодирован на 22 хромосоме человека, координаты гена 20,080,232-20,111,877, ориентация гена + (на прямой цепи), длина гена 31,646 п.о. На рисунке 2 представлено изображение этого гена с помощью геномного браузера UCSC. Показана экзон-интронная структура по аннотациям Refseq и AUGUSTUS.

Ген DGCR8 в геномном браузере

Рисунок 2. Окно геномного браузера, представляющее экзон-интронную структуру гена DGCR8 по аннотациям Refseq (сверху, синий) и AUGUSTUS (снизу, зеленый). Использована последняя сборка генома человека hg38. Координаты отображаемого участка chr22:20,080,232-20,111,877. Изображение получено с помощью геномного браузера UCSC.

Подробная информация об экзон-интронной структуре данного гена представлена в таблице dgcr8.xlsx. Сравнение аннотаций показало, что AUGUSTUS предсказал экзон-интронную структуру достаточно точно. Неправильно определены границы гена (ошибка меньше, чем на 100 п.о. с каждой стороны) и, следовательно, начало первого и конец последнего экзонов. Также в аннотации Refseq указан один экзон, который может вырезаться или не вырезаться при альтернативном сплайсинге (экзон № 8). AUGUSTUS не определил этот экзон, поэтому в аннотации AUGUSTUS экзонов всего 13, а в аннотации Refseq - 14.

© Наталия Кашко, 2015