Аннотация последовательности и сравнение с аннотацией генов в записи GenBank.

Была выбрана бактерия Shigella flexneri, плазмида (). (gi 58044990 gb AY879342.1 Shigella flexneri plasmid pSF5, complete sequence)

Это грамм-отрицательная бактерия, вызывающая диарею. Инфекции обычно лечат антибиотиками, но некоторые штаммы становятся резистентными. Не угрожающие жизни случаи обычно не лечатся, чтобы штамм не стал устойчивым к антибиотику.)

Вот картиночка: pic.jpg

В NCBI gene по запросу Shigella flexneri plasmid pSF5 была выдана таблица в текстовом виде: gene_result.txt. Далее я зарегистрировалась на сайт RAST, создала новое задание(Jobs => Upload new job), получила аннотацию. Ссылка на отчет работы RASTa: http://rast.nmpdr.org/rast Всего найдено 217 генов. Результат аннотации доступен по ссылке: rast_sambr.xls

Далее для визуализации результата я воспользовалась SEED viewer.

pie_plot.png

Диаграмма распределения различных генов по их функциональным характеристикам.

Более подробную информацию можно получить из Features in Subsystems.

Далее была создана сводная таблица с помощью excel. Результат доступен по ссылке: compare.xls

Чтобы найти количество контигов с совпадающими старт-кодонами, я использовала команды: cut -f 2 compare.csv | sort | uniq -c | sort -g > сount_uniq.txt (335 строчек) cut -f 2 compare.csv > сount_all.txt (383 строчки) Таким образом, по старт-кодону совпадают 48 генов.

cut -f 3 compare.csv | sort | uniq -c | sort -g > сount_uniq_stop.txt (304 строчки)

По стоп-кодону совпадают 79 генов. Далее с помощью команд: cut -f 2,3 compare.csv > сount_all_2.txt cut -f 2,3 compare.csv | sort | uniq -c | sort -g > сount_uniq_2.txt было выяснено, что совпадают и по старт и по стоп кодону 47 генов(здесь не учитывались случаи, когда старт и стоп были поменяны местами). В таблице, полученной из RAST, 217 генов, в таблице, полученной из Genbank - 167 генов.

Для белков с несовпадающими аннтоациями были проверены их функции в blastx.

Результат поиска первой последовательности показал,
что белок скорее всего является гликозил трансферазой.
Это достаточно точно соответствует аннотации RAST.

1.png

Результат поиска первой последовательности показал,
что наибольшее совпадение
с различными hypothetical protein или c YacA plasmid stabilization protein [Shigella sp. MO17].

2.png

Результат поиска первой последовательности показал,
что белок имеет функцию регуляции транскрибции.
Под это описание подходит и аннотация genbank -
Co-activator of prophage gene expression IbrB.

3.png

В целом, можно отметить, что RAST аннотирует последовательности с большой точностью,
кроме того, он описывает функции продуктов, которые не описаны в gb.