|
|
Задание 1. Аннотирование последовательности и сравнение с аннотацией генов в записи GenBank
Для аннотирования я выбрала последовательность ДНК вируса оспы верблюдов (эта разновидность оспы у животных считается наиболее близкой к человеческой оспе). Название генома - Camelpox virus, complete genome(ссылка на запись GenBank). Таксономия: Viruses; dsDNA viruses, no RNA stage; Poxviridae; Chordopoxvirinae; Orthopoxvirus (ссылка на NCBI). К ортопоксвирусам также относятся вирусы оспы, поражающие других животных, разные штаммы вируса осповакцины и другие. Я взяла полный геном выбранного вируса, AC в GenBank - NC_003391. Ниже изображен здоровый верблюд, потому что на больных смотреть грустно. С сайта NCBI я получила таблицу аннотированных генов данного вируса по версии GenBank - таблица_GenBank. Их всего 211. Зарегестрировавшись на сервере Rast, я создала там новое задание и получила новый список аннотированных генов - таблица_Rast. В данной таблице их 222, значит Rast аннотировал как минимум на 11 генов больше, чем содержится в записи GenBank. Привожу сравнительную таблицу по двум аннотациям, где можно наглядно увидеть совпадение или несовпадение старт- и стоп-кодонов генов. Итог: Число одинаково аннотированных генов(и старт- и стоп-кодоны совпали): 141 Число генов с одинаковым стоп-кодоном, но разными старт-кодонами: 27 Число генов, аннотированных только программой RAST: 81 (если считать, что гены, аннотированные обеими программами, - это те, у кого совпали старт и стоп кодоны) Для большинства белков Rast не указал функцию(стоит значение hipitetical protein), поэтому основная масса различий - это наличие функции у гена в записи GenBank и отстутствие функции в аннотации Rast. Рассмотрим три подобных примера: Рассматриваемые пары аннотированных генов выделены синим цветом. Для проверки функции гена я использовала blastx. 1) В первой паре в аннотации GenBank стоит функция sulfhydryl oxidase. Результаты бласта подтверждают, что это действительно ген данной оксидазы, сходной с подобными белками близкородственных вирусов. 2) Во второй паре, согласно GenBank, данному гену соответствует ДНК топоизомераза первого типа. По результатаом blast можно уточнить, что это topoisomerase type 1B. 3) Аналогично, аннотация GenBank подтвердилась и для третьей пары - это EEV membrane glycoprotein. Я хотела найти примеры, где были бы указаны разные функции в аннотациях Rast и GenBank, или чтобы функция в Rast была указана, а в GenBank нет, но таких не увидела. Из полученных результатов можно сделать вывод, что Rast достаточно хорошо находит гены (абсолютно совпали рамки у 141 гена из 222, по стоп кодонам 168 из 222), однако плохо определяет их функции (для 199 генов из 222 в качестве функции стоит hypothetical protein). Возможно, это связано с тем, что я выбрала вирусный геном для сравнения аннотаций. |