Задание 1. Аннотировать последовательность с помощью ресурса RAST
и сравнить с аннотацией генов в записи GenBank.
Для выполнения данного задания я выбрала последовательность хромосомы моей бактерии из 1-го семестра:
Gordonibacter pamelaeae 7-10-1-b.
Название генома:
Gordonibacter pamelaeae 7-10-1-b draft genome.
Организм имеет следующую таксономическую принадлежность:
Bacteria
› Actinobacteria
› Coriobacteriia
› Eggerthellales
› Eggerthellaceae
› Gordonibacter
Запись GenBank:
FP929047
Длина последовательности хромосомы (п. н.) - 3608022
Ссылка на запись в GenBank AC -
FP929047
Taxonomy ID - 657308
Тип хромосомы - линейная
Я добавила последовательность хромосомы моей бактерии в формате fasta
bact.fasta
Далее С помощью сервиса RAST получена следующая информация:
таблица с результатами.
Файл с аннотацией генов в формате gbk.
Доли разных функциональных субсистем генов в последовательности хромосомы.
RAST аннотировал все гены, среди которых были гены РНК. Таких генов RAST аннотировал 49.
Данные гены не учитывались при дальнейшем выполении задания. Рассматривались только гены белков.
Таблица аннотаций генов белков из NCBI, обработанная в Excel.
Таблица аннотаций генов белков из RAST, обработанная в Excel.
Таблица сравнения аннотаций генов.
Была также скачана таблица аннотированных белок-кодирующих генов
Protein_annot.xlsx из GenBank'a.
Задание 2. Аннотирование генов в фрагменте геномной ДНК и сравнение с результатами поиска blast.
Была взята бактерия
Burkholderia pseudomallei NCTC 13179, ее таксономия:
домен Bacteria; тип Firmicutes; класс Bacilli; порядок Lactobacillales; семейство Lactobacillaceae; Lactobacillus; Lactobacillus crispatus.
Сборка осуществлена на уровне скэффолдов:
GCF_000165885.1
Скэффолдов собрано 25 штук, контигов - 80. Для контигов N50 - 78 538, L50 - 10.
BioProject:
PRJNA36325
WGS Project:
ADML00000000.1
По этой ссылке можно получить
Список контигов
.
Для последующей аннотации был выбран контиг cont1.1 (ADML01000001) длиной 124,208 бп.
Его fasta-последовательность:
fasta
Предсказания генов произведены с помощью программы
GeneMark (последовательность
была загружена на сайт).
Были выбраны следующие параметры: таблица генетического кода 11, предсказание на обеих цепях, эвристические параметры из статьи 2010 года (потому что, возможно, 2010 версия будет точнее, чем 1999).
После запуска этой онлайн-программы я получила
Координаты предсказанных генов
График кодирующего потенциала
pdf
Фрагмент графика кодирующего потенциала, полученного для последовательности contig1.1. Места, подчеркнутые жирной линией, соответствуют координатам генов в геноме.
Таблица результатов аннотации генов, содержащихся в contig_1.1, с помощью BLAST:
СПАСИБО ЗА ПРОСМОТР
© Мария Медведева