Мини-обзор генома и протеома бактерии Defluviitoga tunisiensis
Хасанова У. Н.
Факультет биоинженерии и биоинформатики, Московский Государственный Университет им. М. В. Ломоносова
Резюме
Мини-обзор анализирует и обобщает имеющиеся данные о геноме Defluviitoga tunisiensis. Приводится качественный и количественный состав ДНК. Демонстрируются такие характеристики генома, как GC-состав, GC-skew, а также распределение длин белков.
Введение
Defluviitoga tunisiensis - мезофильная
хемоорганотрофная анаэробная эубактерия,
принадлежащая к таксону Thermotogales [1].
Окончание “toga” в родовом названии
обозначает наличие у бактерии внешней
одноименной мембраны [2]. Бактерия
успешно культивируется при следующих
условиях: температуре 37-65 градусов по
Цельсию; концентрации NaCl, равной
0.2-3%; pH = 6.7-7.9); наличии элементарной
серы или тиосульфата, используемых
бактерией как конечные акцепторы
электронов. Конечными продуктами
метаболизма глюкозы выступают ацетат,
водород и углекислый газ [1].
Материалы и методы
Последовательность ДНК и данные о
геноме бактерии были взяты из банка данных
NCBI. Для представления данных в виде
обычной и плоской таблиц была
использована программа “MS Excel”.
Содержимое файла было скопировано в
буфер обмена с помощью сочетаний клавиш
“CTRL+A”, “CTRL+C”, после чего
импортировано в лист в MS Excel
посредством нажатия курсором на левый
верхний угол и сочетания клавиш
“CTRL+V”. Листу было задано имя
“feat_table”, он был дважды продублирован с
помощью функции “Duplicate”, два новых
листа были переименованы в “genes” и
“gene2”. Далее в листе “genes” была
использована функция “Filter” с опцией
фильтрации по значению “genes”, в листе
“gene2” фильтрация шла по всем значениям,
кроме “genes”. Для дополнения данных в
листе “genes” недостающими значениями из
“gene2” был использован общий
идентификатор “locus_tag”. Для переноса
недостающих значений для каждого пустого
столбца в листе “genes” была использована
формула VLOOKUP.
Таким образом, лист “genes” был
преобразован в плоскую таблицу,
содержащую данные о каждом отдельном
гене.
Для подсчета количеств нуклеотидов были
использованы возможности программного
пакета “EMBOSS”.
Для подсчета количеств генов разных типов
была произведена фильтрация по столбцу
“class” в листе “genes”.
Для подсчета GC-состава во фрагментах
длины 1000 нуклеотидов генома бактерии
была написана программа на языке
программирования “Python” “pair_freq.py”.
При поиске участков начала и терминации
репликации были использованы возможности
сервиса http://genskew.csb.univie.ac.at/ ,
вычисляющего динамику GC-skew в
нуклеотидной последовательности.
Для построения диаграммы длин белков
были вычислены длины белок-кодирующих
последовательностей, каждая из которых
была поделена на три, из результата вычли
единицу, чтобы не учитывать стоп-кодон.
Результаты
4.1 Количество и длины ДНК,
составляющих геном. Нуклеотидный
состав. GC-состав
Геном D. tunisiens состоит из одной
молекулы ДНК, длина которой составляет
2053097 пар оснований, что меньше, чем
средний размер бактериальной хромосомы
[6]. Соотношения между количествами
нуклеотидов A, T, G и C согласуются со
вторым правилом Чаргаффа (табл.1) [7].
GC-состав всей молекулы ДНК равен 31,38%
- величине меньшей, чем тот же показатель у
других представителей отдела Thermotogae
(от 40,3% до 46,2% у разных представителей
рода Thermotoga - термофильных
эубактерий), что согласуется с мезофильным
образом жизни (организмы, живущие при
высоких температурах, имеют более высокий
процент G и C нуклеотидов) [4][5].
Таблица 1: Количество нуклеотидов разных типов в геноме D. tunisiensis
Нуклеотид
Количество
A
712175
T
696755
G
325812
C
318355
4.2 Встречаемость генов разных типов
Суммарно геном D. tunisiensis
содержит 1886 генов, что соответствует
данным о среднем количестве генов у
прокариот [9]. В табл.2 приведены
количества генов разных типов.
Таблица 2: Встречаемость генов разных типов в геноме D. tunisiensis
Тип
Количество
% от общего числа
Белок-кодирующие
1801
95.49
Псевдогены
26
1.38
тРНК
47
2.49
рРНК
9
0.48
тмРНК
1
0.05
1SPR RNA
1
0.05
2RNAse P RNA
1
0.05
4.3 Динамика изменения GC-состава в
геноме
Минимальная величина GC-состава
равна 29,7%, максимальная - 32,9%. График
на рис.2 демонстрирует резкое падение
величины GC-состава от максимального значения до минимального в начале
последовательности ДНК, а также более
плавное увеличение показателя примерно
после 800-го фрагмента; между этими
событиями есть участок, где изменения
практически отсутствуют.
Рис. 1. График, иллюстрирующий изменение GC-состава в единственной молекуле ДНК D.
tunisiensis
4.4 Поиск мест начала и терминации
репликации
Известен эмпирический факт, что,
вычисляя соотношение между нуклеотидами
G и С, именуемое GC-skew, можно
определить origin (место начала репликации,
далее - oriC) и terminator (место окончания
репликации, далее - ter) [8]. Формула для
вычисления в определенном интервале:
skew = (n(G) + n(C))/(n(G) − n(C))
, где n(G), n(C) - число нуклеотидов G и С.
При расчете на определенном интервале
получаются значения, которые затем взятием
интеграла функции skew выстраиваются в
линию графика, такого, как на рис.3.
Минимум данного отношения соответствует
oriC, максимум - ter. В последовательности ДНК D. tunisiensis oriC соответствует
окрестность 589212-го нуклеотида, ter -
1562334-го нуклеотида.
Рис. 2. Динамика изменения величины GC-skew в ДНК D.
tunisiensis
4.5 Анализ протеома. Сравнение длин
белков
На рис. 4 представлен результат
анализа длин белков D. tunisiensis.
Исследование показало, что протеом
бактерии по большей части представлен
белками длины до пятисот аминокислотных
остатков. Минимальная длина белка - 37,
максимальная - 1648 аминокислотных
остатков.
Рис. 3. Гистограмма распределения длин белков. По
оси оХ отложены интервалы длин, по оси Оу - количество
белков длины, входящей в интервал.
Заключение
В ходе написания мини-обзора
выяснилось, что Интернет-ресурсы не
располагают полным набором информации
об образе жизни Defluviitoga tunisiensis,
геноме и протеоме данной бактерии, о
корреляциях между перечисленными
характеристиками. По этой причине
необходимо в дальнейшем провести более
глубокое исследование организма.
1. Лист “genes_per_types” - встречаемость
генов разных типов;
2. Лист “genome_size” - количество и длина
молекул ДНК, нуклеотидный состав,
GC-состав;
3. Листы “GC_content”, “GC_content_chart” -
GC-состав во фрагментах длины 1000
нуклеотидов генома бактерии; график,
иллюстрирующий изменение GC-состава;
4. Листы “protein_length”,
“protein_length_bar_chart” - анализ длин
белков;
Программа на языке программирования
“Python” “pair_freq.py”.
Благодарности
Автор выражает благодарность своей
семье - матери и двум сестрам - за
моральную поддержку и данную мне
возможность не убираться в доме во время
написания мини-обзора, а также
преподавателю факультета биоинженерии и
биоинформатики Алексеевскому А.В. за
внесение вклада в формирование умений
автора правильно задавать вопросы и искать
ответы.
Список литературы
1. Ben Hania W, Godbane R, Postec A, Hamdi M,
Ollivier B, Fardeau ML. Defluviitoga tunisiensis
gen. nov., sp. nov., a thermophilic bacterium
isolated from a mesothermic and anaerobic whey
digester. Int J Syst Evol Microbiol. 2012
Jun;62(Pt 6):1377-1382. doi:
10.1099/ijs.0.033720-0. Epub 2011 Aug 5.
PMID: 21828011 .
2. Reysenbach, A.-L. (2001) Phylum BII.
Thermotogae phy. nov. In: Bergey's Manual of
Systematic Bacteriology, pp. 369-387. Eds D. R.
Boone, R. W. Castenholz. Springer-Verlag:
Berlin
3. Исходные данные о геноме бактерии :
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/9
53/715/GCF_000953715.1_DTL3
4. Rekadwad BN, Khobragade CN. Determination
of GC content of Thermotoga maritima,
Thermotoga neapolitana and Thermotoga
thermarum strains: A GC dataset for higher level
hierarchical classification. Data Brief. 2016 May
27;8:300-3. doi: 10.1016/j.dib.2016.05.045.
PMID: 27331105; PMCID: PMC4906128.
5. Huber, R., Langworthy, T.A., König, H. et al.
Thermotoga maritima sp. nov. represents a new
genus of unique extremely thermophilic
eubacteria growing up to 90°C. Arch. Microbiol.
144, 324–333 (1986).
https://doi.org/10.1007/BF00409880
6. The Divided Bacterial Genome: Structure,
Function, and Evolution. George C. diCenzo,
Turlough M. Finan. Microbiology and Molecular
Biology Reviews Aug 2017, 81 (3) e00019-17;
DOI: 10.1128/MMBR.00019-17
7. Rudner R, Karkas JD, Chargaff E. Separation of
B. subtilis DNA into complementary strands. 3.
Direct analysis. Proc Natl Acad Sci U S A. 1968
Jul;60(3):921-2. doi: 10.1073/pnas.60.3.921.
PMID: 4970114; PMCID: PMC225140.
8. Tillier ER, Collins RA. The contributions of
replication orientation, gene direction, and
signal sequences to base-composition
asymmetries in bacterial genomes. J Mol Evol.
2000 Mar;50(3):249-57. doi:
10.1007/s002399910029. PMID: 10754068.
9. Gregory TR. Synergy between sequence and size
in large-scale genomics. Nat Rev Genet. 2005
Sep;6(9):699-708. doi: 10.1038/nrg1674. PMID:
16151375.