Обзор протеома бактерии Caldicellulosiruptor owensensis OL

Кузнеченкова Екатерина Юрьевна

Московский государственный университет им. М.В. Ломоносова, факультет биоинженерии и биоинформатики

РЕЗЮМЕ:

В данной работе содержится описание исследования генома и протеома бактерии Caldicellulosiruptor owensensis OL, в процессе которого были изучены соотношение различных нуклеотидов в последовательности ДНК, частоты встречаемости k-меров и GC-состав, проанализировано распределение длин белков бактерии и расположение на прямой и обратной цепи ДНК рибосомальных белков и РНК. Также были определены функциональные классы закодированных в геноме РНК и соотношение количеств различных тРНК.

ВВЕДЕНИЕ:

Объектом исследования является Caldicellulosiruptor owensensis OL — свободноживущая анаэробная гипертермофильная неспорообразующая бактерия, обитатель донных отложений пресноводных водоемов и горячих источников в Калифорнии, США, в частности, была обнаружена в озере Оуэнс. По строению оболочки является Грам-отрицательной, имеет палочкоидную форму, но иногда образует цепочки из кокковидных клеток. При выращивании в искусственно созданных оптимальных условиях было выяснено, что период её удвоения составляет 7,3 часа. Оптимальной температурой для данного организма является 79⁰С, водородный показатель — 7-7,5. Конечными продуктами ферментации глюкозы, характерными для данного штамма, являются лактат, ацетат, этанол, Н2 и СО2. Бактерия Caldicellulosiruptor owensensis OL не является патогенной.

Таксономическая принадлежность:
Царство: Bacteria
Группа: Terrabacteria
Тип: Firmicutes
Класс: Clostridia
Порядок: Thermoanaerobacteriales
Семейство: Thermoanaerobacteriales Family III. Incertae Sedis
Род: Caldicellulosiruptor
Вид: Caldicellulosiruptor owensesis
Штамм: Caldicellulosiruptor owensensis OL


РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

1. Размер генома

Согласно данным ресурса NCBI, размер генома Caldicellulosiruptor owensensis OL составляет 2428903 нуклеотида, что что является сравнительно небольшим значением, но соответствует среднему диапазону для геномов Bacteria.

1.1. GC-состав

Частоты комплементарных пар A-T и G-C в геномной ДНК, полученные с помощью программы geecee, составляют соответственно 0,65 (65%) и 0,35 (35%). Можно отметить, что доля пар G-C (GC-состав) достаточно мала по сравнению с средним значением для Bacteria 9. Достаточно часто сокращение GC-состава генома связано с уменьшением количества генов и либо переходом к эндосимбиозу, либо обитанием в бедной ресурсами среде 8. Последнее связано с тем, что для репликации генома с низким GC-составом требуется меньшее количество поступающих из окружающей среды азота и фосфора. Также рост доли GC-пар ведет уменьшению объема генома, что является невыгодным в условиях дефицита питательных веществ. Ввиду того что исследуемый организм свободноживущий, можно сделать вывод об обеднении ресурсами среды его обитания.

1.2. Частота встречаемости азотистых оснований

Анализ встречаемости каждого нуклеотида с помощью программы wordcount -wordsize 1 приводит к результату, отраженному в таблице 1.

Таблица 1
нуклеотид количество частота
A 788766 0,324742
T 779363 0,32087
G 436330 0,179641
C 424444 0,174747

На основе полученных данных можно отметить, что в геноме Caldicellulosiruptor owensensis OL встречаются только типичные азотистые основания: аденин, тимин, гуанин и цитозин, причем наиболее часто встречается аденин (788766 нуклеотидов), наиболее редко — цитозин (424444 нуклеотида). При этом приблизительно равны количества нуклеотидов, содержащих аденин и тимин, а также гуанин и цитозин, что подтверждает соблюдение первого правила Чаргаффа.

На основании различия нуклеотидного состава участков ДНК можно сделать вывод о расположении мест начала и окончания репликации. Учитывая тот факт, что на лидирующей цепи ДНК число нуклеотидов с гуанином (G) меньше числа нуклеотидов с цитозином (C ), а на отстающей, напротив, число нуклеотидов с гуанином превышает число нуклеотидов с цитозином, можно сделать выводы о распо-ложении участков начала и конца репликации. В этих участках происходит резкое изменение G-C- соотношения. При помощи сервиса GenSkew 5 был построен график (рисунок 1) интегральной величины GC-skew, максимум которого соответствует терминатору, а минимум — ориджину репликации.

Как видно из графика, минимальное значение достигается на 1 нуклеотиде, следовательно, с него начинается репликация. Максимум соответствует 1252849 нуклеотиду, которым оканчивается терминатор.

Рисунок 1

2. Типы генов

Исследование типов генов, присутствующих в геноме Caldicellulosiruptor owensensis OL, позволяет получить в качестве результата следующую таблицу (таблица 2), отражающую их встречаемость

Таблица 2
тип гена количество
кодирующий белок 2130
транспортная РНК 47
псевдоген 130
рибосомальная РНК 9
транспортно-матричная РНК 1
сигнальная РНК 1
РНКаза Р 1

Анализируя полученные данные, можно отметить, что для данной бактерии характерно наличие большого количества псевдогенов (130), при этом число генов, кодирующих белки, достаточно стандартно(2130) для генома такого размера. Высокое содержание псевдогенов — генов, утративших в процессе эволюции свое значение — может свидетельствовать также о редукции генома.

Распределение генов на прямой и обратной цепях ДНК отражено в таблице 3. В результате исследования было определено, что гены белков распределены по цепям ДНК приблизительно равномерно с преобладанием на прямой цепи, при этом большая часть генов тРНК, рРНК и псевдогенов расположены на обратной цепи.

Таблица 3
тип гена на прямой цепи на обратной цепи
кодирующий белок 1149 981
тРНК 20 27
псевдоген 58 72
рРНК 3 6
транспортно-матричная РНК 0 1
сигнальная РНК 1 0
РНКаза Р 1 0

Исходные данные для исследования генома приведены в сопроводительных материалах (лист «genes»).


3. Анализ длин белков

Представленное на гистограмме (рисунок 2) соотношение отражает частоту встречаемости белков различной длины в протеоме Caldicellulosiruptor owensensis OL. Результаты исследования показывают, что длины большей части генов лежат в пределах от 100 до 350 аминокислотных остатков, а пик гистограммы соответствует интервалу 250-300 остатков (253 белка).

Рисунок 2

В этом промежутке находятся длины белков-регуляторов транскрипции, белков, транспортирующих углеводы, сахарофосфат-изомераз, белков, транспортирующих фосфат, металлогидролаз, метилтрансфераз, CRISPR-связанных эндорибонуклеаз, транспортеров АТФ-связанных кассет, рибосомальных белков, шаперонов, белков базального тела жгутика, моторных белков и флагеллина, а также 25 гипотетических белков, функции которых не выяснены.

Количество белков с длинами более 900 аминокислотных остатков очень мало, однако максимальная длина белка составляет 1790 аминокислотных остатка и соответствует белку S-слоя клеточной стенки бактерий (S-layer homology domain-containing protein). Минимальная длина белка в протеоме данной бактерии равна принадлежит белку, содержащему мотив «спираль-поворот-спираль», способный связываться с ДНК, и равна 34 аминокислотным остаткам (helix-turn-helix domain-containing protein). Исходные данные исследования протеома приведены в сопроводительных материалах (лист «prot_lenght»)


4. Анализ РНК генома

В результате анализа данных о генах, кодирующих РНК, было выяснено, что в геноме Caldicellulosiruptor owensensis OL закодировано 60 РНК, распределение которых по функциям представлено в таблице 4. Отдельно были исследованы виды тРНК, присутствующие в геноме, в результате чего было выяснено, что в наибольшей степени в геноме данной бактерии представлены гены тРНК, присоединяющей лейцин (5 генов), а также аргинин и серин (по 4 гена). По одному гену присутствует для тРНК аспарагина, аспартата, цистеина, фенилаланина, триптофана и тирозина (рисунок 3). Такое распределение коррелирует с распределением количеств триплетов, кодирующих каждую аминокислоту (лейцин, аргинин, серин — 6; аспарагин, аспартат, цистеин, фенилаланин, тирозин — 2, триптофан — 1), а также может свидетельствовать о том, какие аминокислоты наиболее часто встречаются в белках бактерии.

Исходные данные приведены в сопроводительных материалах (лист «genes»)

Таблица 4
тип РНК количество
рибосомальная РНК 9
некодирующая РНК 3
транспортно-матричная РНК 1
транспортная РНК 47

Рисунок 3

5. Анализ k-меров длины 2 и 3

Рисунок 4
Рисунок 5

В ходе исследования частота встречаемости каждой последовательности по 2 и по 3 нуклеотида была вычислена с помощью программы wordcount -wordsize k, а отношение полученных количеств к статистически ожидаемым — с помощью программы cbcalc -s -K. Результаты анализа отражены в гистограммах (рисунки 4 и 5).

Из данных, полученных для последовательностей по 2 нуклеотида (рисунок 4), видно, что частота встречаемости последовательностей AA, AG, CA, CC, CT, GA, GC, GG, TG, TT превышает статистически ожидаемую, а частота TC практически равна статистически ожидаемой. В наибольшей степени превышена по сравнению с ожидаемой частота динуклеотида GC (O/E = 1,219) Также можно отметить, что частота CG более чем в два раза (О/Е = 0,485) ниже статистически ожидаемой, что является следствием явления подавления CG.

Анализ встречаемости тринуклеотидов (рисунок 5) показал, что частота встречаемости последовательностей AAG, AAT, ACC, ACT, AGG, AGT, ATA, AT, CAA, CCA, CCT, CC, CGG, CTC, CTT, GAC, GAG, GCG, GGT, GTA, GTC, TAC, TAT, TCA, TGA, TGG, TTG выше статистически ожидаемой, а для AGC и CAG практически совпадает со статистически ожидаемой (О/Е = 0,999 и 1,001 соответственно). В наибольшей степени ожидаемая частота встречаемости превышена для тринуклеотида GGT (О/Е = 1,183), а наименьшим отношением наблюдаемой встречаемости к ожидаемой характеризуется СТА (О/Е = 0,728).

Исходные данные для построения диаграмм представлены на листах «2-mers» и «3-mers» сопроводительных материалов.


6. Анализ расположения и количества рибосомальных генов и РНК

Исследование показало, что в геноме Caldicellulosiruptor owensensis OL содержится по 3 гена 16S рРНК, 23S рРНК и 5S рРНК, а также 54 рибосомальных белка, из которых 19 образуют малую субъединицу РНК (белки S), а 35 — большую (белки L). Молекул 23S и 5S РНК входят в состав большой субъединицы рибосомы, а 16S РНК — в состав малой. Большая часть генов рибосомальных РНК и белков расположена на обратной цепи ДНК. Данные о координатах генов белков и РНК отражены в таблицах 5 и 6 соответственно.

Таблица 5
название белка начало конец цепь
30S рибосомальный белок S10 1555836 1556156 -
30S рибосомальный белок S11 1542840 1543232 -
30S рибосомальный белок S12 755062 755499 +
30S рибосомальный белок S13 1543252 1543626 -
30S рибосомальный белок S15 961647 961913 +
30S рибосомальный белок S16 860978 861223 +
30S рибосомальный белок S17 1550997 1551239 -
30S рибосомальный белок S18 1881906 1882184 -
30S рибосомальный белок S19 1553048 1553332 -
30S рибосомальный белок S2 1626510 1627286 -
30S рибосомальный белок S20 1705207 1705506 +
30S рибосомальный белок S21 1145868 1146044 +
30S рибосомальный белок S3 1551934 1552602 -
30S рибосомальный белок S4 1542190 1542816 -
30S рибосомальный белок S5 1547528 1548034 -
30S рибосомальный белок S6 1882722 1883012 -
30S рибосомальный белок S7 755568 756041 +
30S рибосомальный белок S8 1549019 1549417 -
30S рибосомальный белок S9 1832315 1832707 -
50S рибосомальный белок L1 1397254 1397946 -
50S рибосомальный белок L10 1396486 1397037 -
50S рибосомальный белок L11 1398022 1398447 -
50S рибосомальный белок L13 1832732 1833160 -
50S рибосомальный белок L14 1550581 1550949 -
50S рибосомальный белок L15 1547066 1547509 -
50S рибосомальный белок L16 1551491 1551934 -
50S рибосомальный белок L17 1540820 1541161 -
50S рибосомальный белок L18 1548055 1548423 -
50S рибосомальный белок L19 862894 863283 +
50S рибосомальный белок L2 1553380 1554210 -
50S рибосомальный белок L20 1083407 1083766 +
50S рибосомальный белок L21 1021413 1021724 +
50S рибосомальный белок L22 1552625 1552987 -
50S рибосомальный белок L23 1554249 1554539 -
50S рибосомальный белок L24 1550226 1550558 -
50S рибосомальный белок L25 1123030 1123635 +
50S рибосомальный белок L27 1022069 1022368 +
50S рибосомальный белок L28 1983036 1983224 +
50S рибосомальный белок L29 1551286 1551504 -
50S рибосомальный белок L29 1551286 1551504 -
50S рибосомальный белок L3 1555197 1555829 -
50S рибосомальный белок L31 977008 977217 +
50S рибосомальный белок L32 1136666 1136842 +
50S рибосомальный белок L33 1399354 1399518 -
50S рибосомальный белок L34 2424239 2424373 -
50S рибосомальный белок L35 1083174 1083371 +
50S рибосомальный белок L36 1543650 1543763 -
50S рибосомальный белок L4 1554541 1555167 -
50S рибосомальный белок L5 1549654 1550196 -
50S рибосомальный белок L6 1548440 1548988 -
50S рибосомальный белок L7 1396049 1396438 -
50S рибосомальный белок L9 826041 826487 +
type Z 30S рибосомальный белок S14 1549445 1549630 -
Таблица 6
РНК начало конец цепь
16S рибосомальная РНК 2293817 2295369 -
16S рибосомальная РНК 1529976 1531528 -
16S рибосомальная РНК 300311 301863 +
23S рибосомальная РНК 2290730 2293679 -
23S рибосомальная РНК 1526733 1529683 -
23S рибосомальная РНК 302156 305105 +
5S рибосомальная РНК 2290540 2290656 -
5S рибосомальная РНК 1526543 1526659 -
5S рибосомальная РНК 305179 305295 +

Исходные данные представлены на листе «genes» сопроводительных материалов.

ЗАКЛЮЧЕНИЕ

В результате анализа различных свойств генома и протеома бактерии Caldicellulosiruptor owensensis OL были определены некоторые важные для дальнейших исследований параметры, такие как положение ориждина и терминатора репликации, частота встречаемости k-меров и распределение генов на прямой и обратной цепи ДНК, которое оказалось приблизительно равномерным для генов белков. Исследование k-меров указало на проявление подавления CG в данном геноме. Данные признаки могут быть важны для дальнейшей работы с культурой бактерии и модифицирования её генома с теми или иными целями. Также были определены максимальная (1790 аминокислотных остатков), минимальная (34 аминокислотных остатка) и наиболее часто встречающиеся (250-300 аминокислотных остатков) длины белков изучаемого организма и встречаемость в геноме тРНК, связывающихся с различными аминокислотами. Последнее исследование показало наличие сравнительно большого количества генов тРНК, транспортирующих лейцин.

Хромосомная таблица и материалы исследования


БЛАГОДАРНОСТИ

Выражаю благодарность всем преподавателям практической биоинформатики ФББ МГУ, помогавшим мне в освоении методов работы, которые были применены в процессе написания данного обзора.


СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ:

  1. Директория с данными о геноме Caldicellulosiruptor owensensis OL на сайте NCBI
  2. Pallavi Subhraveti, Peter Midford, Ingrid Keseler, Anamika Kothari, Ron Caspi, Peter D Karp Summary of Caldicellulosiruptor owensensis, Strain OL // SRI International - 2019
  3. Chi-Yu Huang, Bharat K. Patel, Robert A. Mah and Larry Baresi Caldicellu-losiruptor owensensis sp. nov., an anaerobic, extremely thermophilic, xylano-lytic bacterium // International Union of Microbiological Societies – 1998
  4. NCBI – assembly Caldicellulosiruptor owensensis OL (firmicutes)
  5. GenSkew - приложение для вычисления и построения графиков данных перекоса нуклеотидов
  6. NCBI – protein S-layer homology domain-containing protein [Caldicellu-losiruptor owensensis]
  7. NCBI – protein helix-turn-helix domain-containing protein [Caldicellu-losiruptor owensensis]
  8. Возможные причины сокращения GC-состава бактерии: David J. Martínez-Cano, Mariana Reyes-Prieto, Esperanza Martínez-Romero, Laila P. Partida-Martínez, Amparo Latorre, et. al.. . Evolution of small prokaryotic genomes. // Front. Microbiol.. 5 - 2015
  9. Таблица значений GC-состава для различных бактерий