Предсказание генов эукариот.


Задание 1. Предсказание генов X5 с помощью AUGUSTUS.

Для выполнения данного задания было необходимо выбрать один из контигов из сборки Х5 длиной от 20 кб до 100 kb.
Используя команду infoseq (с опциями -only -name -snucleotide1 -length) пакета EMBOSS, я вывелв только названия и длины контигов (для удобства выбора).
Среди контигов нужной длины я выбрала scaffold-51 длины 57241.
Затем получила его нуклеотидную последовательность: fasta-файл


Для работы программе AUQUSTUS требуются либо уже известные гены нашего организма, либо родственного. Чтобы устанавливать примерное таксономическое положение x5, нужно было обратиться к blastx.

Сразу было понятно, что искать весь контиг тяжело. Пришлось искать отдельные фрагменты длиной несколько тысяч п.н. Для начала я использовала фрагмент длиной в 14580 п.н. и оказалось, в последовательности была найдена часть некого гена.



Результаты blastx по запросу части скэффолда scaffold-51:



Лучшие находки:
  • Rhizophagus irregularis: Fungi › Glomeromycota › Glomeromycetes › Glomerales › Glomeraceae › Rhizophagus

  • Rhizopus microsporus: Fungi › Fungi incertae sedis › Mucoromycotina › Mucorales › Mucorineae › Rhizopodaceae › Rhizopus

  • Rhizopus delemar: Fungi › Fungi incertae sedis › Mucoromycotina › Mucorales › Rhizopodaceae › Rhizopus

  • Mucor ambiguus: Fungi › Fungi incertae sedis › Mucoromycotina › Mucorales › Mucorineae › Mucoraceae › Mucor

  • Cryptococcus gattii : Fungi › Dikarya › Basidiomycota › Agaricomycotina › Tremellomycetes › Tremellales › Tremellaceae


  • К сожалению, уже после царства Fungi начинаются расхождения.
    Пришлось обратиться к поискам по другим фрагментам нашего скэффолда. В целом результаты были похожи.
    Я предположила, что подходящим организмом является Rhizopus delemar, т. к. он встречался при всех исследованиях фрагменотов.

    Результат программы: на сайте

    Архив содержал следующие файлы:

  • augustus.aa

  • augustus.codingseq

  • augustus.gff

  • augustus.cdsexons

  • augustus.gbrowse

  • augustus.gtf



  • Предсказания генов в формате gff содержатся в файле augustus.gff .Там приведены предсказанные кодирующие нуклеотидные и аминокислотные последовательности, а также экзонно-интеронная структура предсказанных генов.

    Проверка предсказания с помощью blastp

  • Предсказанный ген 1.



  • Первая находка имеет хороший score и подтверждена экспериментально.



    Судя по большому количеству гэпов, экзон-интронная структура предсказана не совсем правильно.
    Скорее всего, аминокислотная последовательность гена содержит консервативный домен, принадлежащий суперсемейству Conserved Wat1/Pop3 WD-repeat protein, т.е. продукт гена предположительно участвует в защите целостности микротрубочек.

    Из рисунка ниже видно, что участок гомологичной последовательности, сходный с анализируемой последовательностью, начинается со 168 аминокислоты (у остальных принмерно также). Поэтому начало гена 1 скорее всего было определено неверно, т.е. длина должна быть больше.



  • Предсказанный ген 2.

  • Для второго гена blastр выдал только одну находку, это 1-(5-phosphoribosyl)-5-[(5-phosphoribosylamino)methylideneamino] imidazole-4-carboxamide isomerase. Но находка имеет подтверждение только на уровне гомологии.



  • Предсказанный ген 4.





  • Для первой находки, которая имеет подтверждение только на уровне гомологии:






    Вторая имеет также хороший score, но зато подтверждена экспериментально.






    Таким образом, скорее всего ген 2 включает домен Serine/threonine-protein kinase cst-1. Т.е. предположительно yменьшает старение тканей, активируя daf-16.



  • Предсказанный ген 23.





  • Опять начало гена 23 скорее всего было определено неверно, т.к. участок гомологичной последовательности начинается с 376 аминокислоты (у остальных принмерно также).



    Ген 23 содержит домен, принадлежащий к суперсемейству Sn1-specific diacylglycerol lipase alpha, т.е. катализирует гидролиз диацилглицерола до 2-арахидоноил-глицерол.


    Задание 2. Сравнение аннотации Refseq и AUGUSTUS одного гена человека.

    Я выбрала ген MTHFR (methylenetetrahydrofolate reductase (NAD(P)H) [ Homo sapiens (human) ]) из NCBI Genes, организм H.sapiens.
    Затем я нашла этот ген в UCSC Genome Browser, используя последнюю сборку генома hg38.

    Координаты гена: хромосома 11,786,603-11,806,058

    Далее требовалось сравнить аннотации Refseq и AUGUSTUS. Для этого я оставила только три трэка: base position, Refseq и AUGUSTUS.
    Получила интрон-экзонную структуру в текстовом виде.

    Результаты:



    Таблица сравнения аннотаций Refseq и AUGUSTUS.


    Выводы:

  • Начало первого экзона и конец последнего всегда отличаются от начала и конца cds(кодирующей последовательности). Возможно, из-за того, что зрелая эукариотическая мРНК состоит не только из кодирующей белок последовательности, но и 5' кэп, 5' нетранслируемая область, 3' нетранслируемая область и 3' полиадениновый "хвост".


  • По этой же причине длина экзонов не обязательно должна делиться на 3 : в зависимости от длины некодирующих областей рамка считывания может сдвигаться на разное число нуклеотидов так, что cds уже точно будет делиться целочисленно на 3.



  • СПАСИБО ЗА ПРОСМОТР


    © Мария Медведева