В данной работе содержится описание исследования генома и протеома бактерии Caldicellulosiruptor owensensis OL, в процессе которого были изучены соотношение различных нуклеотидов в последовательности ДНК, частоты встречаемости k-меров и GC-состав, проанализировано распределение длин белков бактерии и расположение на прямой и обратной цепи ДНК рибосомальных белков и РНК. Также были определены функциональные классы закодированных в геноме РНК и соотношение количеств различных тРНК.
Объектом исследования является Caldicellulosiruptor owensensis OL — свободноживущая анаэробная гипертермофильная неспорообразующая бактерия, обитатель донных отложений пресноводных водоемов и горячих источников в Калифорнии, США, в частности, была обнаружена в озере Оуэнс. По строению оболочки является Грам-отрицательной, имеет палочкоидную форму, но иногда образует цепочки из кокковидных клеток. При выращивании в искусственно созданных оптимальных условиях было выяснено, что период её удвоения составляет 7,3 часа. Оптимальной температурой для данного организма является 79⁰С, водородный показатель — 7-7,5. Конечными продуктами ферментации глюкозы, характерными для данного штамма, являются лактат, ацетат, этанол, Н2 и СО2. Бактерия Caldicellulosiruptor owensensis OL не является патогенной.
Таксономическая принадлежность:
Царство: Bacteria
Группа: Terrabacteria
Тип: Firmicutes
Класс: Clostridia
Порядок: Thermoanaerobacteriales
Семейство: Thermoanaerobacteriales Family III. Incertae Sedis
Род: Caldicellulosiruptor
Вид: Caldicellulosiruptor owensesis
Штамм: Caldicellulosiruptor owensensis OL
Согласно данным ресурса NCBI, размер генома Caldicellulosiruptor owensensis OL составляет 2428903 нуклеотида, что что является сравнительно небольшим значением, но соответствует среднему диапазону для геномов Bacteria.
Частоты комплементарных пар A-T и G-C в геномной ДНК, полученные с помощью программы geecee, составляют соответственно 0,65 (65%) и 0,35 (35%). Можно отметить, что доля пар G-C (GC-состав) достаточно мала по сравнению с средним значением для Bacteria 9. Достаточно часто сокращение GC-состава генома связано с уменьшением количества генов и либо переходом к эндосимбиозу, либо обитанием в бедной ресурсами среде 8. Последнее связано с тем, что для репликации генома с низким GC-составом требуется меньшее количество поступающих из окружающей среды азота и фосфора. Также рост доли GC-пар ведет уменьшению объема генома, что является невыгодным в условиях дефицита питательных веществ. Ввиду того что исследуемый организм свободноживущий, можно сделать вывод об обеднении ресурсами среды его обитания.
Анализ встречаемости каждого нуклеотида с помощью программы wordcount -wordsize 1 приводит к результату, отраженному в таблице 1.
нуклеотид | количество | частота |
---|---|---|
A | 788766 | 0,324742 |
T | 779363 | 0,32087 |
G | 436330 | 0,179641 |
C | 424444 | 0,174747 |
На основе полученных данных можно отметить, что в геноме Caldicellulosiruptor owensensis OL встречаются только типичные азотистые основания: аденин, тимин, гуанин и цитозин, причем наиболее часто встречается аденин (788766 нуклеотидов), наиболее редко — цитозин (424444 нуклеотида). При этом приблизительно равны количества нуклеотидов, содержащих аденин и тимин, а также гуанин и цитозин, что подтверждает соблюдение первого правила Чаргаффа.
На основании различия нуклеотидного состава участков ДНК можно сделать вывод о расположении мест начала и окончания репликации. Учитывая тот факт, что на лидирующей цепи ДНК число нуклеотидов с гуанином (G) меньше числа нуклеотидов с цитозином (C ), а на отстающей, напротив, число нуклеотидов с гуанином превышает число нуклеотидов с цитозином, можно сделать выводы о распо-ложении участков начала и конца репликации. В этих участках происходит резкое изменение G-C- соотношения. При помощи сервиса GenSkew 5 был построен график (рисунок 1) интегральной величины GC-skew, максимум которого соответствует терминатору, а минимум — ориджину репликации.
Как видно из графика, минимальное значение достигается на 1 нуклеотиде, следовательно, с него начинается репликация. Максимум соответствует 1252849 нуклеотиду, которым оканчивается терминатор.
Исследование типов генов, присутствующих в геноме Caldicellulosiruptor owensensis OL, позволяет получить в качестве результата следующую таблицу (таблица 2), отражающую их встречаемость
тип гена | количество |
---|---|
кодирующий белок | 2130 |
транспортная РНК | 47 |
псевдоген | 130 |
рибосомальная РНК | 9 |
транспортно-матричная РНК | 1 |
сигнальная РНК | 1 |
РНКаза Р | 1 |
Анализируя полученные данные, можно отметить, что для данной бактерии характерно наличие большого количества псевдогенов (130), при этом число генов, кодирующих белки, достаточно стандартно(2130) для генома такого размера. Высокое содержание псевдогенов — генов, утративших в процессе эволюции свое значение — может свидетельствовать также о редукции генома.
Распределение генов на прямой и обратной цепях ДНК отражено в таблице 3. В результате исследования было определено, что гены белков распределены по цепям ДНК приблизительно равномерно с преобладанием на прямой цепи, при этом большая часть генов тРНК, рРНК и псевдогенов расположены на обратной цепи.
тип гена | на прямой цепи | на обратной цепи |
---|---|---|
кодирующий белок | 1149 | 981 |
тРНК | 20 | 27 |
псевдоген | 58 | 72 |
рРНК | 3 | 6 |
транспортно-матричная РНК | 0 | 1 |
сигнальная РНК | 1 | 0 |
РНКаза Р | 1 | 0 |
Исходные данные для исследования генома приведены в сопроводительных материалах (лист «genes»).
Представленное на гистограмме (рисунок 2) соотношение отражает частоту встречаемости белков различной длины в протеоме Caldicellulosiruptor owensensis OL. Результаты исследования показывают, что длины большей части генов лежат в пределах от 100 до 350 аминокислотных остатков, а пик гистограммы соответствует интервалу 250-300 остатков (253 белка).
В этом промежутке находятся длины белков-регуляторов транскрипции, белков, транспортирующих углеводы, сахарофосфат-изомераз, белков, транспортирующих фосфат, металлогидролаз, метилтрансфераз, CRISPR-связанных эндорибонуклеаз, транспортеров АТФ-связанных кассет, рибосомальных белков, шаперонов, белков базального тела жгутика, моторных белков и флагеллина, а также 25 гипотетических белков, функции которых не выяснены.
Количество белков с длинами более 900 аминокислотных остатков очень мало, однако максимальная длина белка составляет 1790 аминокислотных остатка и соответствует белку S-слоя клеточной стенки бактерий (S-layer homology domain-containing protein). Минимальная длина белка в протеоме данной бактерии равна принадлежит белку, содержащему мотив «спираль-поворот-спираль», способный связываться с ДНК, и равна 34 аминокислотным остаткам (helix-turn-helix domain-containing protein). Исходные данные исследования протеома приведены в сопроводительных материалах (лист «prot_lenght»)
В результате анализа данных о генах, кодирующих РНК, было выяснено, что в геноме Caldicellulosiruptor owensensis OL закодировано 60 РНК, распределение которых по функциям представлено в таблице 4. Отдельно были исследованы виды тРНК, присутствующие в геноме, в результате чего было выяснено, что в наибольшей степени в геноме данной бактерии представлены гены тРНК, присоединяющей лейцин (5 генов), а также аргинин и серин (по 4 гена). По одному гену присутствует для тРНК аспарагина, аспартата, цистеина, фенилаланина, триптофана и тирозина (рисунок 3). Такое распределение коррелирует с распределением количеств триплетов, кодирующих каждую аминокислоту (лейцин, аргинин, серин — 6; аспарагин, аспартат, цистеин, фенилаланин, тирозин — 2, триптофан — 1), а также может свидетельствовать о том, какие аминокислоты наиболее часто встречаются в белках бактерии.
Исходные данные приведены в сопроводительных материалах (лист «genes»)
тип РНК | количество |
---|---|
рибосомальная РНК | 9 |
некодирующая РНК | 3 |
транспортно-матричная РНК | 1 |
транспортная РНК | 47 |
В ходе исследования частота встречаемости каждой последовательности по 2 и по 3 нуклеотида была вычислена с помощью программы wordcount -wordsize k, а отношение полученных количеств к статистически ожидаемым — с помощью программы cbcalc -s -K. Результаты анализа отражены в гистограммах (рисунки 4 и 5).
Из данных, полученных для последовательностей по 2 нуклеотида (рисунок 4), видно, что частота встречаемости последовательностей AA, AG, CA, CC, CT, GA, GC, GG, TG, TT превышает статистически ожидаемую, а частота TC практически равна статистически ожидаемой. В наибольшей степени превышена по сравнению с ожидаемой частота динуклеотида GC (O/E = 1,219) Также можно отметить, что частота CG более чем в два раза (О/Е = 0,485) ниже статистически ожидаемой, что является следствием явления подавления CG.
Анализ встречаемости тринуклеотидов (рисунок 5) показал, что частота встречаемости последовательностей AAG, AAT, ACC, ACT, AGG, AGT, ATA, AT, CAA, CCA, CCT, CC, CGG, CTC, CTT, GAC, GAG, GCG, GGT, GTA, GTC, TAC, TAT, TCA, TGA, TGG, TTG выше статистически ожидаемой, а для AGC и CAG практически совпадает со статистически ожидаемой (О/Е = 0,999 и 1,001 соответственно). В наибольшей степени ожидаемая частота встречаемости превышена для тринуклеотида GGT (О/Е = 1,183), а наименьшим отношением наблюдаемой встречаемости к ожидаемой характеризуется СТА (О/Е = 0,728).
Исходные данные для построения диаграмм представлены на листах «2-mers» и «3-mers» сопроводительных материалов.
Исследование показало, что в геноме Caldicellulosiruptor owensensis OL содержится по 3 гена 16S рРНК, 23S рРНК и 5S рРНК, а также 54 рибосомальных белка, из которых 19 образуют малую субъединицу РНК (белки S), а 35 — большую (белки L). Молекул 23S и 5S РНК входят в состав большой субъединицы рибосомы, а 16S РНК — в состав малой. Большая часть генов рибосомальных РНК и белков расположена на обратной цепи ДНК. Данные о координатах генов белков и РНК отражены в таблицах 5 и 6 соответственно.
название белка | начало | конец | цепь |
---|---|---|---|
30S рибосомальный белок S10 | 1555836 | 1556156 | - |
30S рибосомальный белок S11 | 1542840 | 1543232 | - |
30S рибосомальный белок S12 | 755062 | 755499 | + |
30S рибосомальный белок S13 | 1543252 | 1543626 | - |
30S рибосомальный белок S15 | 961647 | 961913 | + |
30S рибосомальный белок S16 | 860978 | 861223 | + |
30S рибосомальный белок S17 | 1550997 | 1551239 | - |
30S рибосомальный белок S18 | 1881906 | 1882184 | - |
30S рибосомальный белок S19 | 1553048 | 1553332 | - |
30S рибосомальный белок S2 | 1626510 | 1627286 | - |
30S рибосомальный белок S20 | 1705207 | 1705506 | + |
30S рибосомальный белок S21 | 1145868 | 1146044 | + |
30S рибосомальный белок S3 | 1551934 | 1552602 | - |
30S рибосомальный белок S4 | 1542190 | 1542816 | - |
30S рибосомальный белок S5 | 1547528 | 1548034 | - |
30S рибосомальный белок S6 | 1882722 | 1883012 | - |
30S рибосомальный белок S7 | 755568 | 756041 | + |
30S рибосомальный белок S8 | 1549019 | 1549417 | - |
30S рибосомальный белок S9 | 1832315 | 1832707 | - |
50S рибосомальный белок L1 | 1397254 | 1397946 | - |
50S рибосомальный белок L10 | 1396486 | 1397037 | - |
50S рибосомальный белок L11 | 1398022 | 1398447 | - |
50S рибосомальный белок L13 | 1832732 | 1833160 | - |
50S рибосомальный белок L14 | 1550581 | 1550949 | - |
50S рибосомальный белок L15 | 1547066 | 1547509 | - |
50S рибосомальный белок L16 | 1551491 | 1551934 | - |
50S рибосомальный белок L17 | 1540820 | 1541161 | - |
50S рибосомальный белок L18 | 1548055 | 1548423 | - |
50S рибосомальный белок L19 | 862894 | 863283 | + |
50S рибосомальный белок L2 | 1553380 | 1554210 | - |
50S рибосомальный белок L20 | 1083407 | 1083766 | + |
50S рибосомальный белок L21 | 1021413 | 1021724 | + |
50S рибосомальный белок L22 | 1552625 | 1552987 | - |
50S рибосомальный белок L23 | 1554249 | 1554539 | - |
50S рибосомальный белок L24 | 1550226 | 1550558 | - |
50S рибосомальный белок L25 | 1123030 | 1123635 | + |
50S рибосомальный белок L27 | 1022069 | 1022368 | + |
50S рибосомальный белок L28 | 1983036 | 1983224 | + |
50S рибосомальный белок L29 | 1551286 | 1551504 | - |
50S рибосомальный белок L29 | 1551286 | 1551504 | - |
50S рибосомальный белок L3 | 1555197 | 1555829 | - |
50S рибосомальный белок L31 | 977008 | 977217 | + |
50S рибосомальный белок L32 | 1136666 | 1136842 | + |
50S рибосомальный белок L33 | 1399354 | 1399518 | - |
50S рибосомальный белок L34 | 2424239 | 2424373 | - |
50S рибосомальный белок L35 | 1083174 | 1083371 | + |
50S рибосомальный белок L36 | 1543650 | 1543763 | - |
50S рибосомальный белок L4 | 1554541 | 1555167 | - |
50S рибосомальный белок L5 | 1549654 | 1550196 | - |
50S рибосомальный белок L6 | 1548440 | 1548988 | - |
50S рибосомальный белок L7 | 1396049 | 1396438 | - |
50S рибосомальный белок L9 | 826041 | 826487 | + |
type Z 30S рибосомальный белок S14 | 1549445 | 1549630 | - |
РНК | начало | конец | цепь |
---|---|---|---|
16S рибосомальная РНК | 2293817 | 2295369 | - |
16S рибосомальная РНК | 1529976 | 1531528 | - |
16S рибосомальная РНК | 300311 | 301863 | + |
23S рибосомальная РНК | 2290730 | 2293679 | - |
23S рибосомальная РНК | 1526733 | 1529683 | - |
23S рибосомальная РНК | 302156 | 305105 | + |
5S рибосомальная РНК | 2290540 | 2290656 | - |
5S рибосомальная РНК | 1526543 | 1526659 | - |
5S рибосомальная РНК | 305179 | 305295 | + |
Исходные данные представлены на листе «genes» сопроводительных материалов.
В результате анализа различных свойств генома и протеома бактерии Caldicellulosiruptor owensensis OL были определены некоторые важные для дальнейших исследований параметры, такие как положение ориждина и терминатора репликации, частота встречаемости k-меров и распределение генов на прямой и обратной цепи ДНК, которое оказалось приблизительно равномерным для генов белков. Исследование k-меров указало на проявление подавления CG в данном геноме. Данные признаки могут быть важны для дальнейшей работы с культурой бактерии и модифицирования её генома с теми или иными целями. Также были определены максимальная (1790 аминокислотных остатков), минимальная (34 аминокислотных остатка) и наиболее часто встречающиеся (250-300 аминокислотных остатков) длины белков изучаемого организма и встречаемость в геноме тРНК, связывающихся с различными аминокислотами. Последнее исследование показало наличие сравнительно большого количества генов тРНК, транспортирующих лейцин.
Хромосомная таблица и материалы исследования
Выражаю благодарность всем преподавателям практической биоинформатики ФББ МГУ, помогавшим мне в освоении методов работы, которые были применены в процессе написания данного обзора.