Предсказание генов прокариот

Задание 1 Аннотирование последовательности и сравнение её с аннотацией генов в записи GenBank.



Для аннотации была выбрана единственная кольцевая хромосома бактерии Denitrovibrio acetiphilus DSM 12809 Таксономия организма представлена на Рис.1.


Рисунок 1 Таксономия организма
AC в GenBank CP001968, в RefSeq NC_013943
Последовательность хромосомы в формате fasta

  • Всего генов белков RAST аннотировал 3109, а GenBank 2965.

  • Число совпадающих аннотаций (одинаково аннотированы и старт- и стоп-кодоны): 3773

  • Число генов с совпадающими стоп-кодонами, но различными старт-кодонами: 4180.

  • Число генов, аннотированных в RAST и неаннотированных в GenBank: 202.

  • Число генов, аннотированных в GenBank и неаннотированных в RAST: 123.


  • Также в Excel была отредактирована таблица сравнения аннотаций генов в RAST и GenBank


    Рассмотрим ген белка Integral membrane sensor signal transduction histidine kinase/Signal transduction histidine kinase. На Рис. 2. видно, что старт-кодоны в аннотациях RAST и GenBank не совпадают.

    Рисунок 2

    Ген, аннотированный RAST, длинее. Зададим аминокислотную последовательность с этого гена на вход в blastp
    Было найдено 16 последовательности, из которых только одну можно считать хорошей


    Рисунок 3 Находки blastp

    Рисунок 4 Выравнивание данной последовательности
    Теперь проверим по blastp последовательность с гена, аннотированного GenBank
    Blast находит все те же 16 последовательностей, однако теперь выравнивание выглядит по-другому - последовательности идентичны

    Рисунок 5 Выравнивание
    На мой взгляд, это позволяет предположить, что аннотация GenBank данного гена более "правильная".
    Рассмотрим ген белка ABC transporter-like protein/Lipid A-export ATP-binding permease protein MsbA. На Рис. 6. видно, что старт-кодоны в аннотациях RAST и GenBank не совпадают.

    Рисунок 6

    Ген, аннотированный RAST, длинее. Зададим аминокислотную последовательность с этого гена на вход в blastp
    Было найдено 34 последовательности, из которых только одну можно считать хорошей


    Рисунок 7 Выравнивание данной последовательности
    Теперь проверим по blastp последовательность с гена, аннотированного GenBank
    Blast находит все те же 34 последовательности, однако теперь выравнивание выглядит по-другому - последовательности идентичны

    Рисунок 8 Выравнивание
    На мой взгляд, это позволяет предположить, что аннотация GenBank данного гена более "правильная".
    Рассмотрим ген белка Endoribonuclease L_PSP На Рис. 9. видно, что старт-кодоны в аннотациях RAST и GenBank не совпадают.

    Рисунок 9

    Ген, аннотированный RAST, длинее. Зададим аминокислотную последовательность с этого гена на вход в blastp
    Была найдена й последовательность, её можно считать хорошей


    Рисунок 10 Находка blastp и выравнивание данной последовательности
    Теперь проверим по blastp последовательность с гена, аннотированного GenBank
    Blast находит эту же последовательность, однако теперь выравнивание выглядит по-другому - последовательности идентичны

    Рисунок 11 Выдача blastp и выравнивание
    На мой взгляд, это позволяет предположить, что аннотация GenBank данного гена более "правильная".
    Ссылки
  • The National Center for Biotechnology Information
  • © Козлова Анастасия, 2015