Предсказание генов прокариот.


Задание 1. Аннотировать последовательность с помощью ресурса RAST и сравнить с аннотацией генов в записи GenBank.

Для выполнения данного задания я выбрала последовательность хромосомы моей бактерии из 1-го семестра: Gordonibacter pamelaeae 7-10-1-b. Название генома: Gordonibacter pamelaeae 7-10-1-b draft genome.


Организм имеет следующую таксономическую принадлежность:
  • Bacteria

  • › Actinobacteria

  • › Coriobacteriia

  • › Eggerthellales

  • › Eggerthellaceae

  • › Gordonibacter



  • Запись GenBank: FP929047

    Длина последовательности хромосомы (п. н.) - 3608022 Ссылка на запись в GenBank AC - FP929047

    Taxonomy ID - 657308

    Тип хромосомы - линейная

    Я добавила последовательность хромосомы моей бактерии в формате fasta bact.fasta

    Далее С помощью сервиса RAST получена следующая информация: таблица с результатами.

    Файл с аннотацией генов в формате gbk.

    Доли разных функциональных субсистем генов в последовательности хромосомы.



    RAST аннотировал все гены, среди которых были гены РНК. Таких генов RAST аннотировал 49. Данные гены не учитывались при дальнейшем выполении задания. Рассматривались только гены белков.

    Таблица аннотаций генов белков из NCBI, обработанная в Excel.

    Таблица аннотаций генов белков из RAST, обработанная в Excel.

    Таблица сравнения аннотаций генов.


    Была также скачана таблица аннотированных белок-кодирующих генов Protein_annot.xlsx из GenBank'a.

    Задание 2. Аннотирование генов в фрагменте геномной ДНК и сравнение с результатами поиска blast.

    Была взята бактерия Burkholderia pseudomallei NCTC 13179, ее таксономия: домен Bacteria; тип Firmicutes; класс Bacilli; порядок Lactobacillales; семейство Lactobacillaceae; Lactobacillus; Lactobacillus crispatus.

    Сборка осуществлена на уровне скэффолдов: GCF_000165885.1 Скэффолдов собрано 25 штук, контигов - 80. Для контигов N50 - 78 538, L50 - 10.
    BioProject: PRJNA36325
    WGS Project: ADML00000000.1
    По этой ссылке можно получить Список контигов .
    Для последующей аннотации был выбран контиг cont1.1 (ADML01000001) длиной 124,208 бп.

    Его fasta-последовательность: fasta

    Предсказания генов произведены с помощью программы GeneMark (последовательность была загружена на сайт).
    Были выбраны следующие параметры: таблица генетического кода 11, предсказание на обеих цепях, эвристические параметры из статьи 2010 года (потому что, возможно, 2010 версия будет точнее, чем 1999).

    После запуска этой онлайн-программы я получила Координаты предсказанных генов

    График кодирующего потенциала pdf


    Фрагмент графика кодирующего потенциала, полученного для последовательности contig1.1. Места, подчеркнутые жирной линией, соответствуют координатам генов в геноме.


    Таблица результатов аннотации генов, содержащихся в contig_1.1, с помощью BLAST:


    СПАСИБО ЗА ПРОСМОТР


    © Мария Медведева