Гены прокариот
Задание 1.
В данном задании требовалось аннотировать последовательность и сравнить с аннотацией генов в записи GenBank. Для работы был выбран геном вируса Reptile bornavirus 1 strain 251327, с которым велась работа в первом семестре.
Название генома: Reptile bornavirus 1 strain 251327, complete genome
Таксономия вируса (ID - 1539978): Viruses; ssRNA viruses; ssRNA negative-strand viruses; Mononegavirales; Bornaviridae; unclassified Bornaviridae; Reptile bornavirus 1 strain 251327.
Идентификарторы вирусного генома:
NCBI Reference Sequence: NC_024778.1
GenBank: KM114265.1
Последовательность в формате fasta: ссылка.
Таблица аннотаций GenBank.
Для дальнейшего выполнения задания было необходимо зарегестрироваться на сервере RAST. В выдаче RAST были получены gbk-файл и таблица аннотаций RAST.
Для сравнения аннотаций была составлена сводная таблица. По ссылке ее можно скачать в формате xlxs, но, поскольку таблица очень мала, ее можно полностью посмотреть на Рис. 1.
Рис. 1. Сводная таблица аннотаций GenBank и RAST генов вируса Reptile bornavirus 1 strain 251327
Из таблицы видно, что RAST и GenBank аннотировали одинаковое количество генов (по 6 генов). Интересно, что RAST аннотировал один ген обратной цепи, тогда
как GenBank аннотировал только гены прямой цепи.
Всего получилось 2 гена с полностью совпадающими старт- и стоп-кодонами и 3 гена с совпадающими стоп-кодонами, но различающимися старт-кодонами. Два гена
(строки таблицы 3 и 12) не имеют никаких совпадений с другими, генов, у которых бы совпадали старт-кодоны, но различались стоп-кодоны, не имеется.
Далее было нужно проверить аннотацию при помощи blast для трех несовпадающих аннотаций. Поиск находок проводился алгоритмом blastp по БД Swissprot. Для работы были выбраны следующие аннотации:
gi|675270056|gb|KM114265.1|_566_1180 и 20268193. Не совпадают продукты (описания) и старт-кодоны. gi|675270056|gb|KM114265.1|_1901_2329 и 20268191. Не совпадают продукты. gi|675270056|gb|KM114265.1|_3734_8827 и 20268188. Не совпадают старт-кодоны.
Проверка 1.
На Рис. 2a-b представлены находки blastp для аннотаций RAST и GenBank. Видно, что находок для RAST больше, но они в целом хуже находок GenBank, также в выдаче для лучшей находки из GenBank старт-кодоны совпадают, а для последовательности из RAST - нет. Это позволяет сделать выбор о правильности выбора старт-кодона в пользу аннотации GenBank. В результатах выдачи blast для обеих аннотаций видно, что лучшая находка - Nucleoprotein, что также позволяет выбрать описание из аннотациии GenBank как правильное.
Рис. 2a. Находки для аннотации из RAST. Снизу - выравнивание лучшей находки со входной последовательностью.
Рис. 2b. Находки для аннотации из GenBank. Снизу - выравнивание лучшей находки со входной последовательностью.
Проверка 2.
На Рис. 3 представлены находки blastp для аннотаций RAST и GenBank. Поскольку находки для обеих аннотаций оказались совершенно идентичны (более того, даже обе находки, выданные blast в обоих случаях одинаковы), приведена всего одна выдача blast. Как видно из результатов, описание GenBank (Matrix protein) верно.
Рис. 3. Находки для аннотации из RAST и GenBank
Проверка 3.
Для RAST blast выдал 76 находок, и только 2 из них достаточно хороши (Query cover 99%, E-value=0). Для аннотации GenBank было сделано также 76 находок, и они лишь немногим лучше выдачи для RAST (Bit-score больше). Выдачи для лучших находок представлены на Рис. 4a-b. Видно, что для лучшей находки RAST старт-кодоны не совпадают, а для выдачи GenBank - совпадают, поэтому можно сделать вывод, что аннотация GenBank правильная.