Мини-обзор генома и протеома бактерии Defluviitoga tunisiensis
Хасанова У. Н.
Факультет биоинженерии и биоинформатики, Московский Государственный Университет им. М. В. Ломоносова

Резюме
Мини-обзор анализирует и обобщает имеющиеся данные о геноме Defluviitoga tunisiensis. Приводится качественный и количественный состав ДНК. Демонстрируются такие характеристики генома, как GC-состав, GC-skew, а также распределение длин белков.
Введение
Defluviitoga tunisiensis - мезофильная хемоорганотрофная анаэробная эубактерия, принадлежащая к таксону Thermotogales [1]. Окончание “toga” в родовом названии обозначает наличие у бактерии внешней одноименной мембраны [2]. Бактерия успешно культивируется при следующих условиях: температуре 37-65 градусов по Цельсию; концентрации NaCl, равной 0.2-3%; pH = 6.7-7.9); наличии элементарной серы или тиосульфата, используемых бактерией как конечные акцепторы электронов. Конечными продуктами метаболизма глюкозы выступают ацетат, водород и углекислый газ [1].
Материалы и методы
Последовательность ДНК и данные о геноме бактерии были взяты из банка данных NCBI. Для представления данных в виде обычной и плоской таблиц была использована программа “MS Excel”. Содержимое файла было скопировано в буфер обмена с помощью сочетаний клавиш “CTRL+A”, “CTRL+C”, после чего импортировано в лист в MS Excel посредством нажатия курсором на левый верхний угол и сочетания клавиш “CTRL+V”. Листу было задано имя “feat_table”, он был дважды продублирован с помощью функции “Duplicate”, два новых листа были переименованы в “genes” и “gene2”. Далее в листе “genes” была использована функция “Filter” с опцией фильтрации по значению “genes”, в листе “gene2” фильтрация шла по всем значениям, кроме “genes”. Для дополнения данных в листе “genes” недостающими значениями из “gene2” был использован общий идентификатор “locus_tag”. Для переноса недостающих значений для каждого пустого столбца в листе “genes” была использована формула VLOOKUP. Таким образом, лист “genes” был преобразован в плоскую таблицу, содержащую данные о каждом отдельном гене. Для подсчета количеств нуклеотидов были использованы возможности программного пакета “EMBOSS”. Для подсчета количеств генов разных типов была произведена фильтрация по столбцу “class” в листе “genes”. Для подсчета GC-состава во фрагментах длины 1000 нуклеотидов генома бактерии была написана программа на языке программирования “Python” “pair_freq.py”. При поиске участков начала и терминации репликации были использованы возможности сервиса http://genskew.csb.univie.ac.at/ , вычисляющего динамику GC-skew в нуклеотидной последовательности. Для построения диаграммы длин белков были вычислены длины белок-кодирующих последовательностей, каждая из которых была поделена на три, из результата вычли единицу, чтобы не учитывать стоп-кодон.
Результаты
4.1 Количество и длины ДНК, составляющих геном. Нуклеотидный состав. GC-состав Геном D. tunisiens состоит из одной молекулы ДНК, длина которой составляет 2053097 пар оснований, что меньше, чем средний размер бактериальной хромосомы [6]. Соотношения между количествами нуклеотидов A, T, G и C согласуются со вторым правилом Чаргаффа (табл.1) [7]. GC-состав всей молекулы ДНК равен 31,38% - величине меньшей, чем тот же показатель у других представителей отдела Thermotogae (от 40,3% до 46,2% у разных представителей рода Thermotoga - термофильных эубактерий), что согласуется с мезофильным образом жизни (организмы, живущие при высоких температурах, имеют более высокий процент G и C нуклеотидов) [4][5].
Таблица 1: Количество нуклеотидов разных типов в геноме D. tunisiensis
Нуклеотид Количество
A 712175
T 696755
G 325812
C 318355
4.2 Встречаемость генов разных типов Суммарно геном D. tunisiensis содержит 1886 генов, что соответствует данным о среднем количестве генов у прокариот [9]. В табл.2 приведены количества генов разных типов.
Таблица 2: Встречаемость генов разных типов в геноме D. tunisiensis
Тип Количество % от общего числа
Белок-кодирующие 1801 95.49
Псевдогены 26 1.38
тРНК 47 2.49
рРНК 9 0.48
тмРНК 1 0.05
1SPR RNA 1 0.05
2RNAse P RNA 1 0.05
4.3 Динамика изменения GC-состава в геноме Минимальная величина GC-состава равна 29,7%, максимальная - 32,9%. График на рис.2 демонстрирует резкое падение величины GC-состава от максимального значения до минимального в начале последовательности ДНК, а также более плавное увеличение показателя примерно после 800-го фрагмента; между этими событиями есть участок, где изменения практически отсутствуют.
GC-content
Рис. 1. График, иллюстрирующий изменение GC-состава в единственной молекуле ДНК D. tunisiensis
4.4 Поиск мест начала и терминации репликации Известен эмпирический факт, что, вычисляя соотношение между нуклеотидами G и С, именуемое GC-skew, можно определить origin (место начала репликации, далее - oriC) и terminator (место окончания репликации, далее - ter) [8]. Формула для вычисления в определенном интервале:

skew = (n(G) + n(C))/(n(G) − n(C))

, где n(G), n(C) - число нуклеотидов G и С. При расчете на определенном интервале получаются значения, которые затем взятием интеграла функции skew выстраиваются в линию графика, такого, как на рис.3. Минимум данного отношения соответствует oriC, максимум - ter. В последовательности ДНК D. tunisiensis oriC соответствует окрестность 589212-го нуклеотида, ter - 1562334-го нуклеотида.
GC-skew
Рис. 2. Динамика изменения величины GC-skew в ДНК D. tunisiensis
4.5 Анализ протеома. Сравнение длин белков На рис. 4 представлен результат анализа длин белков D. tunisiensis. Исследование показало, что протеом бактерии по большей части представлен белками длины до пятисот аминокислотных остатков. Минимальная длина белка - 37, максимальная - 1648 аминокислотных остатков.
Protein length
Рис. 3. Гистограмма распределения длин белков. По оси оХ отложены интервалы длин, по оси Оу - количество белков длины, входящей в интервал.
Заключение
В ходе написания мини-обзора выяснилось, что Интернет-ресурсы не располагают полным набором информации об образе жизни Defluviitoga tunisiensis, геноме и протеоме данной бактерии, о корреляциях между перечисленными характеристиками. По этой причине необходимо в дальнейшем провести более глубокое исследование организма.
Сопроводительные материалы
Таблица “Исследование генома и протеома Defluviitoga tunisiensis”

1. Лист “genes_per_types” - встречаемость генов разных типов;

2. Лист “genome_size” - количество и длина молекул ДНК, нуклеотидный состав, GC-состав;

3. Листы “GC_content”, “GC_content_chart” - GC-состав во фрагментах длины 1000 нуклеотидов генома бактерии; график, иллюстрирующий изменение GC-состава;

4. Листы “protein_length”, “protein_length_bar_chart” - анализ длин белков;

Программа на языке программирования “Python” “pair_freq.py”.

Благодарности
Автор выражает благодарность своей семье - матери и двум сестрам - за моральную поддержку и данную мне возможность не убираться в доме во время написания мини-обзора, а также преподавателю факультета биоинженерии и биоинформатики Алексеевскому А.В. за внесение вклада в формирование умений автора правильно задавать вопросы и искать ответы.
Список литературы

1. Ben Hania W, Godbane R, Postec A, Hamdi M, Ollivier B, Fardeau ML. Defluviitoga tunisiensis gen. nov., sp. nov., a thermophilic bacterium isolated from a mesothermic and anaerobic whey digester. Int J Syst Evol Microbiol. 2012 Jun;62(Pt 6):1377-1382. doi: 10.1099/ijs.0.033720-0. Epub 2011 Aug 5. PMID: 21828011 .

2. Reysenbach, A.-L. (2001) Phylum BII. Thermotogae phy. nov. In: Bergey's Manual of Systematic Bacteriology, pp. 369-387. Eds D. R. Boone, R. W. Castenholz. Springer-Verlag: Berlin

3. Исходные данные о геноме бактерии : ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/9 53/715/GCF_000953715.1_DTL3

4. Rekadwad BN, Khobragade CN. Determination of GC content of Thermotoga maritima, Thermotoga neapolitana and Thermotoga thermarum strains: A GC dataset for higher level hierarchical classification. Data Brief. 2016 May 27;8:300-3. doi: 10.1016/j.dib.2016.05.045. PMID: 27331105; PMCID: PMC4906128.

5. Huber, R., Langworthy, T.A., König, H. et al. Thermotoga maritima sp. nov. represents a new genus of unique extremely thermophilic eubacteria growing up to 90°C. Arch. Microbiol. 144, 324–333 (1986). https://doi.org/10.1007/BF00409880

6. The Divided Bacterial Genome: Structure, Function, and Evolution. George C. diCenzo, Turlough M. Finan. Microbiology and Molecular Biology Reviews Aug 2017, 81 (3) e00019-17; DOI: 10.1128/MMBR.00019-17

7. Rudner R, Karkas JD, Chargaff E. Separation of B. subtilis DNA into complementary strands. 3. Direct analysis. Proc Natl Acad Sci U S A. 1968 Jul;60(3):921-2. doi: 10.1073/pnas.60.3.921. PMID: 4970114; PMCID: PMC225140.

8. Tillier ER, Collins RA. The contributions of replication orientation, gene direction, and signal sequences to base-composition asymmetries in bacterial genomes. J Mol Evol. 2000 Mar;50(3):249-57. doi: 10.1007/s002399910029. PMID: 10754068.

9. Gregory TR. Synergy between sequence and size in large-scale genomics. Nat Rev Genet. 2005 Sep;6(9):699-708. doi: 10.1038/nrg1674. PMID: 16151375.