Гены прокариот
Задание 1.
Для работы в данном практикуме я выбрал последовательность генома вируса бешенства
Rabies virus. Геном данного организма полностью секвенирован, и его можно найти на
сайте NCBI, RefSeq AC генома
- NC_001542.
Аннотация генома вируса бешенства,
последовательность генома данного вируса и
его аннотированных белков в fasta-формате.
Аннотированных белков в геноме вируcа - 5 штук.
Таблица аннотированных генов в геноме вируса.
 
Таксономия вируса бешенства Rabies virus
 
Я зарегистировался на сайте RAST, после чего начал новый
проект, перейдя по ссылке Your Jobs > Upload new job, после чего следовал указаниям и запустил
задание по аннотированию генов вируса. Через некоторое время RAST выполнил работу, и мною был скачан
результат в виде таблицы. Также я скачал аннотацию генома с сервиса
RAST в формате gbk.
 
Обе таблицы с генами (с сервисов NCBI и RAST) я объединил в одну, после
чего сравнил результаты.
Таблица сравнения выдачи NCBI и RAST
 
Как видно из таблицы сравнения генов, одинаково аннотированных генов (в которых совпадают координаты
старт- и стоп-кодонов) нет ни одного. Все гены (и описанные RAST, и анноированные в NCBI) имеют пусть
схожие, но всё-таки различающиеся координаты. Также стоит отметить, что RAST аннотировал один ген, которого
нет в NCBI, в таблице он идёт под Feature ID: fig|11292.5.peg.5 . Этот же ген, что интересно, аннотирован
как ген обратной цепи, что несколько странно, поскольку генетическая информация вируса бешенства хранится
в одноцепочечной РНК.
 
Далее для первых трёх по счёту (в аннотации RAST) генов я проверил аннотацию с помощью blastp.
Ген 1
Для первого гена BLAST нашёл очень много соответствий, причём большую часть из них можно считать
очень хорошими (имели высокие значения идентичности, покрытия и низкие - E-value). Как видно ниже,
самая лучшая находка имеет процент покрытия 97% и идентичности - 100%. Значит, аннотированный
RAST белок - действительно нуклеопротеин N.
Находки blastp по первому аннотированному RAST белку
 
Выравнивание первого аннотированного RAST белка с лучшей находкой
Однако RAST аннотировал белок не совсем верно. Видно, что выравнивание начинается не с первой
аминокислоты, как белок из RefSeq, а только с одиннадцатой.
Последовательность же, взятая из GeneBank, полностью
совпадает с лучшей находкой BLAST
Выравнивание белка из GeneBank с лучшей находкой BLAST
 
Ген 2
Второй по счёту ген из аннотации RAST также при поиске в BLAST также получил множество схожих
с ним находок, причём лучшая из них имела стопроцентное покрытие и стопроцентную идентичность.
Находки blastp по второму аннотированному RAST белку
 
Выравнивание первого аннотированного RAST белка с лучшей находкой
Значит, это действительно фосфопротеин М1. Выравнивание же
последовательности этого же белка, взятой из GeneBank,
принесло точно такой же результат (абсолютная идентичность последовательности с лучшей находкой BLAST).
 
Ген 3
При проверке третьего по счёту гена, аннотированного RAST, BLAST выдал интересный результат.
Находки blastp по третьему аннотированному RAST белку
 
Выравнивание третьего аннотированного RAST белка с лучшими находками
Лучшую находку приходится выбирать из двух: либо та, у которой процент покрытия равен 95%, а
идентичность стопроцентная, либо та, у которой наоборот, идентичность равна 95%, а покрытие
стопроцентно. Однако не подлежит сомнению, что RAST аннотировал именно ген белка М2.
При поиске же последовательности этого белка из
GeneBank такой ситуации не возникло, и лучшая находка имела абсолютное сходство с данной
на вход алгоритму последовательностью.
Выравнивание белка из GeneBank с лучшей находкой BLAST
Этот факт позволяет сделать вывод, что качество аннотации этого белка из GeneBank всё-таки выше, \
нежели из RAST, хотя в принадлежности последней именно белку М2 сомневаться не приходится.
 
 
 
Ссылка на главную страницу
© Головачев Ярослав