Анализ генома Phytobacter diazotrophicus

1. Актуальность

Изучение и анализ генома способствует лучшему пониманию особенностей жизнедеятельности и экологической роли организма, что несомненно является полезным как для процессов, связанных с промышленным производством, так и для выяснения причин возникновения вспышек эпидемий. В данном обзоре был проанализирован геном (его состав как нуклеотидный, так и число, названия и длины ДНК), гены, кодирующие белок, и их распределение по цепям ДНК, гены РНК, а также были определены возможные участки начала и конца репликации

2. Введение

Phytobacter diazotrophicus является одним из видов рода грамотрицательных, азотофиксирующих бактерий Phytobacter. Согласно исследованию, проведённому Марсело Пиллонетто, Лавинией Аренд, Фабио Реццонико и т.д. и опубликованном в журнале “BMC Infection Diseases”, попадание бактерий трёх видов, среди которых был Phytobacter diazotrophicus, в организм пациентов с ослабленной иммунной системой из-за нарушения стерильности упаковок полного парентерального питания привело к эпидемии сепсиса на территории четырёх штатов в Бразилии в 2013 и 2014 годах. Также в данной статье имеется информация о причастности Phytobacter diazotrophicus к вспышкам сепсиса в США в 1970 годах. Согласной другой статье Фабио Реццонико, Цюхун Ниу и т. д., опубликованной в журнале “Pathogens”, что, хотя Phytobacter diazotrophicus в основном обитает в растительных тканях или почве, также этот вид встречается в кишечнике нематоды C. elegans, где выполняет пробиотическую роль.

3. Сопроводительные материалы

В данном обзоре были использованы файлы feature_table.txt, и genomic.fna, скачать которые можно по ссылкам:

Файл feature_table.txt

Файл genomic.fna

4. Данные о геноме

Ссылка на таблицу с данными, которые будут приведены ниже.

GC состав был установлен с помощью команды geecee из биоинформатического пакета EMBOSS, но можно также взять данные из файла assmbly_stats.txt.

4.1 Состав и размер генома

Геном состоит из хромосомы (NZ_CP051548.1) длинной 9777264 н. п. и плазмиды (NZ_CP051549.1) длинной 85271 н. п. Содержание нуклеотидов гуанина и цитозина в хромосоме равно 0,53, а в плазмиде - 0,50. Геном состоит на 23,37% из аденина, 23,43% из тимина, 26,63% из цитозина и 26,57% из гуанина. Никакие другие молекулы в геноме не были найдены. Также необходимо отметить, что данный состав подтверждает первое правило Чаргаффа.

4.2 Данные о белках

Таблица с данными о белках и генах РНК
количество процент от общего числа генов
всего генов 5248 100%
на прямой цепи 2636 50,23%
на комплементарной цепи 2612 49,77%
рибосомальные белки 88 1,676%
гипотетические белки 406 7,74%
транспортные белки 663 12,63%
белок кодирующие гены 4947 94,26%
гены РНК 257 4,897% (5,195% от белок кодирующих)
рибосомальные РНК 56 1,07% (21,8% от общего числа РНК-генов)
транспортные РНК 154 2,93% (59,9% от общего числа РНК-генов)

Из полученных данных следует, что гены распределены по прямой и комплементарной цепям с вероятностью 0,5, так как значения отличаются всего на 23, что в 9 из 10 вариантах не превышает разницы случайного распределения с вероятностью 0,5 значений 0 и 1 в 5248 случаях.

The frequency of occurrence of the proteins with determined length
№1 График, отображающий частоту встреч белков с определенной длинной. Ось X: длина белков в аминокислотах. Ось Y: количество белков.

Основываясь на данные, представленные в графике №1, самыми распространенными белками являются те, чья длина находится в диапазоне от 81 до 360 аминокислот. (Данные такого типа могут пригодиться в установлении самой распространенной длины у белков)

4.3 Данные о РНК-генах

У Phytobacter diazotrophicus, согласно табличным данным, преобладают гены транспортных РНК над генами рибосомальных РНК, что является довольно закономерным явлением. Также низко содержание РНК-генов относительно общего числа может свидетельствовать об отсутствии в необходимости разнообразия молекул РНК у данного организма.

4.4 Участки ori и ter

Cumulative GC-skew
№2 График, отражающий суммарный GC-skew. Ось OX обозначает номера нуклеотидов, с которых начинаются анализируемые участки ДНК длинной 100000 нуклеотидов. Ось OY - величину суммарного GC-skew. Красной линией отображены значения GC-skew

В ходе анализа GC-skew были установлены предположительные участки начала репликации кольцевой ДНК между 413000-514000 нуклеотидами и конца между 3131000-3234000 нуклеотидами. GC-skew в области ori равняется -13,186, а в области ter достигает 67,604.

5. Сопроводительная литература

Cтатья про сепсис.

Статья про симбиоз.

6. Приложения

Код для определения допустимой погрешности случайного распределения с погрешностью 0,5 (на вход принимает количество «случаев»).

Код для подсчета суммарного GC-skew с шагом 1000 и окном 100000 (bank обозначает файл в формате genomebank, genome - файл с полным геномом).