Таксономическое положение изучаемой бактерии Thermusbrockianus [1]:
Таксономический ранг | Название таксона |
---|---|
Надцарство | Bacteria |
Тип | Deinococcota |
Класс | Deinococci |
Порядок | Thermales | Семейство | Thermaceae |
Род | Thermus |
Вид | Thermus brockianus |
Thermus brockianus - термофильная, аэробная, грамотрицательная неподвижная бактерия, впервые была обнаружена в геотермальной зоне Гейсир, Исландия. Thermus brockianus имеет высокую оптимальную температуру около 70°C Разлагающие ферменты, выделенные из этих бактерий, используются в различных целях в промышленности, так как имеют высокую устойчивость к повышенным температурам.. Геном бактерии состоит из хромосомы, одной мегаплазмиды и одной плазмиды [2].
Материалами для данного мини-обзора выступили:
1. Таблица особенностей генома бактерии Thermus brockianus: *ССЫЛКА*
2. Таблица CDS (кодирующих последовательностей) бактерииThermus brockianus: *ССЫЛКА*
3. Полный геном бактерии Thermus brockianus: *ССЫЛКА*
4. Протеом бактерии Escherichia coli K12 для сравнение его спротеомом бактерии Thermus brockianu: *ССЫЛКА*
5. Первые три файла были взяты из базы данных NCBI длябактерии Thermus brockianus: *ССЫЛКА*
6. Последний файл был взят из базы данных NCBI для бактерииEscherichia coli K12: *ССЫЛКА*
Для обработки данных из таблиц особенностей генома и кодирующих последовательностей бактерии Thermus brockianus они импортировались в электронные таблицы. При обработке использовались функции: =COUNTIF, =COUNTIFS, =MIN, =MAX, =AVERAGE – также накладывались фильтры для избирательного выбора данных (3.5 “Анализ генов репликонов”; 3.7 “Интервалы между CDS и их пересечения”; 3.8 “Исследование особенностей бактерии на чужеродные гены”). Также использовались инструменты электронных таблиц для создания диаграмм, представляющих данные в удобном для просмотра виде (Диаграмма длин белков, диаграмма доли гуанина, диаграмма распределения динуклеотидов по репликонам, диаграммы интервалов между CDS на плюс и минус цепях и диаграммы пересечений CDS на плюс и минус цепях).
Электронные таблицы также были использованы для обработки данных, полученных при помощи программ, написанных на языке программирования Python 3.0, и при помощи команд командной оболочки Bash.
На языке Python были написаны программы, при помощи которых были получены данные для:
– 3.4 “Стоп кодоны”
– 3.6 “ATGC-состав и динуклеотиды по репликонам”
– 3.9 “Анализ аминокислотного состава Thermus brockianus”
Программы принимают на ввод файл в формате FASTA и выдают текстовый файл, в котором находятся результаты обработки данных. Весь код см. в сопроводительных материалах п. 3.
При помощи средств Bash были получены данные для 3.3 “Старт кодоны”. Все команды, которые использовались мной для получения данных см. сопроводительные материалы п. 1.
По гистограмме длин белков, закодированных в геноме бактерии Thermus brockianus (рис. 1) видно, что наиболее распространены белки длиной 80-440 аминокислот, при этом размер любого белка, кодируемого генами бактерии, имеет длину более 20 аминокислот. К тому же ДНК бактерии кодирует всего 23 белка, чья длина превышает 980 аминокислот.
По таблице генетических особенностей бактерии Thermus brockianus в Google-таблицах мною была построен график доли гуанина (G) и цитозина (С) в кодирующих частях ДНК бактерии. По представленным результатам можно определить, что в CDS наиболее распространены доли гуанина и цитозина 65-70% процентов (среднее рассчитанное значение %GC = 67,04% по CDS) . Также можно увидеть неравномерность распределение GC по CDS, так как, допустим: CDS с 52-53 %GC - 11, а CDS с 54-55 %GC - 1 , хотя 54-54 % гораздо ближе к среднему значению GC-состава, нежели 52-53%. Такие распределения в %GC-составе говорят о возможности приобретения данных участков ДНК в результате горизонтального переноса генов.
Кодоны | Частота встречаемости в CDS |
---|---|
ATG | 1871 |
GTG | 506 |
TTG | 88 |
CTG | 7 | ATA | 6 |
ATT | 4 |
ATC | 3 |
CGG | 2 |
GGG, CAC, CTT, TAC, TCC | 1 |
По таблице 2 встречаемости старт кодонов среди CDS генома бактерии видно, что кроме стандартного старт-кодона ATG встречаются также в больших количествах GTG, в меньших количества TTG, а остальные совсем в небольших количествах. Такое разнообразие старт кодонов объясняется другим способом инициации трансляции у прокариот по сравнению с эукариотами. У прокариот имеется особая инициирующая формилметионил-тРНК, которая связывается со старт-кодоном иРНК, которым в обычном случае выступает AUG, но часто может быть и GUG. Так как антикодон UAC может связываться не только с комплементарным кодоном, но и с кодоном, содержащим неоднозначные пары оснований к нуклеотидам антикодона. Неоднозначной парой основания U первого нуклеотида антикодона UAC может быть азотистое основание G из кодона GUG, то есть это означает, что между ними могут образовываться водородные связи и происходить связывание. Старт-кодон определяется у прокариот не только нуклеотидной последовательностью, но и вторичной структурой мРНК, которая может образовывать шпильки, помогающие определить для формилметионил-тРНК месторасположение старт-кодона [4]. Также у мРНК перед старт кодоном имеется последовательность Шайна-Дальгарно, комплементарная нуклеотидной последовательности на рРНК 16-S и служащая для правильного связывания мРНК с 30-S субъединицей рибосомой и для помещения старт-кодона в P-сайт рибосомы. И если кодон не слишком отличается от AUG и перед ним на расстоянии около 10 нуклеотидов есть последовательность Шайна-Дальгарно, то кодон может быть старт-кодоном, однако всё равно будет кодировать метионин. Мы можем заметить, что среди не ATG старт-кодонов наибольшее количество тех, что отличаются от ATG первым нуклеотидом. А по таблице 2 мы можем понять, что не ATG старт-кодоны, отличающиеся от ATG больше, чем на 1
нуклеотид, не могут экспрессироваться и встречаются только в псевдогенах, генах, которые вследствие ряда мутаций перестали экспрессироваться и с которых перестали синтезироваться белки [3]. Поэтому в них старт-кодонами могут быть любые кодоны.
Кодоны | Частота встречаемости в CDS |
---|---|
ATG | 24 |
GTG | 6 |
TTG | 16 |
CGG | 2 | GGG, CAC, CTT, TAC,TCC | 1 |
Стоп кодон | Частота встречаемости в CDS |
---|---|
TAG | 1071 |
TGA | 909 |
TAA | 493 |
TAC | 3 | AAC, AAT, AGC, CCA, CCC, CCT, CGA, CGC, CTA, CTC, CTG, CTT, GCC, GCT, TAT, TCA | 1 |
Из таблицы 4 следует, что наиболее распространёнными стоп-кодонами в геноме моей бактерии являются TAG и TGA, в два раза менее распространён стоп-кодон TAA.
Стоп кодон | Частота встречаемости в CDS |
---|---|
TAG | 26 |
TGA | 8 |
TAA | 10 |
TAC | 3 | AAC, AAT, AGC, CCA, CCC, CCT, CGA, CGC, CTA, CTC, CTG, CTT, GCC, GCT, TAT, TCA | 1 |
Из таблицы 5 видно, что все остальные стоп-кодоны, кроме перечисленных выше, встречаются только в псевдогенах и не выполняют функции остановки трансляции белка.
Репликоны - это молекулы или участки ДНК, которые реплицируются из одной точки. У моей бактерии репликонами являются хромосома и две плазмиды.
Репликон | Chromosome (Хромосома) | pTbrSNM4-1b (мегаплазмида) | pTbrSNM4-1c (плазмида) |
---|---|---|---|
Гены белков | 2109 | 300 | 30 |
Гены РНК | 56 | 0 | 0 |
Псевдогены | 43 | 10 | 0 |
Процент псевдогенов | 2% | 3,23% | 0% |
Одна из характерных особенностей распределения генов по репликонам заключается в том, что все кодирующие РНК гены заключены в хромосоме, а не в плазмиде. Это скорее всего связано с тем, что большая часть РНК обеспечивают жизнедеятельность клетки и являются обязательными, поэтому и заключены в хромосоме, в то время, как плазмиды являются непостоянными элементами клеток: могут выбрасываться во внешнюю среду или захватываться оттуда же.
Также стоит заметить, что мегаплазмида pTbrSNM4-1b имеет достаточно высокий процент псевдогенов (более чем в 1,5 раза больше) относительно процента псевдогенов в хромосоме. Такой высокий процент псевдогенов означает, что мегаплазмида содержит множество не жизненно важных генов, при мутации в которых жизнеспособность особи не снижается. Действительно, в мегаплазмиде бактерии находится множество транспозонов и вирусных генов - интеграз, которые не влияют за жизнедеятельность бактерии.
Напротив, плазмида pTbrSNM4-1c не содержит псевдогенов. Это значит, что все гены являются жизненно важными и особи, имеющие мутации в этих генах оказываются менее жизнеспособными и проигрывают в конкуренции особям, у которых не происходили мутации в этой плазмиде.
Проценты | Chromosome (Хромосома) | pTbrSNM4-1b (мегаплазмида) | pTbrSNM4-1c (плазмида) |
---|---|---|---|
A | 16,56% | 17,31% | 18,94% |
C | 33,52% | 32,77% | 31,92% |
G | 33,44% | 33,07% | 32,39% |
T | 16,48% | 16,85% | 16,76% |
% GC | 66,96% | 65,83% | 64,31% |
% AT | 33,04% | 34,17% | 35,69% |
По таблице 7 видно, что все репликоны имеют схожий состав по нуклеотидам, однако в плазмидах в среднем меньше GC-нуклеотидов и больше AT-нуклеотидов по сравнению с хромосомой. А плазмида pTbrSNM4-1c больше всего
отличается по составу нуклеотидов от хромосомы: её GC-состав отличается на 2,5% от GC-состава хромосомы.
Из графика распределения динуклеотидов по репликонам (рис. 4) прослеживается одна интересная закономерность: динуклеотидов GG и CC в 1,5-2 раза больше, чем нуклеотидов GC и CG. То есть после нуклеотида G или C вероятность встретить повтор почти в два раза больше, чем встретить комплементарный ему нуклеотид. Также интересно, что GC-динуклеотидов на 20-25% больше, чем CG-динуклеотидов, хотя если бы нуклеотиды распределялись равномерно, то их частоты встречаемости должны бы были быть равны. И интересно, что и хромосома, и две плазмиды имеют одни и те же тенденции в распределении динуклеотидов.
По графикам распределения интервалов между CDS по хромосоме (рис. 5 и рис. 6) мы можем заметить, что длинным интервалам на одной цепи соответствуют короткие интервалы или пересечения на другой цепи.
По гистограммам интервалов между CDS на минус- и плюс-цепях (рис. 7 и рис. 8) прослеживается следующая тенденция в распределении интервалов: интервал 5-6 нуклеотидов встречается относительно редко, а интервал 9-10 нуклеотидов встречается относительно часто. Также с увеличением интервала частота встречаемости в среднем уменьшается.
Из рисунков 9 и 10 – графиков пересечения CDS на плюс- и минус-цепях соответственно можно сделать следующие выводы:
1. Не встречаются пересечения кратные трём (если и встречаются, то только в псевдогенах), так как при таком пересечении стоп кодон предыдущего CDS попадёт в рамку считывания следующего CDS.
2. Не встречаются пересечения равные 2, так как среди стоп-кодонов (TAG, TGA, TAA) нет таких, последние 2 нуклеотида которых совпадали бы с первыми двумя нуклеотидами старт-кодонов (ATG, GTG, TTG)
3. Очень часто встречаются пересечения равные 4, в этом случае стоп-кодон не попадает в рамку считывания CDS, также в этом случае два последних нуклеотида старт-кодонов (ATG, GTG, TTG) перекрываются с первыми двумя нуклеотидами стоп-кодона TGA - TG. Возможно из-за того, что старт-кодоны бактерий отличаются обычно только первым нуклеотидом (ATG, GTG, TTG) пересечение в 4 нуклеотида встречает так часто
При исследовании таблицы особенностей генома бактерии мною были обнаружены транспозоны (см. сопроводительные материалы п. 2) - мобильные генетические элементы, способные к размножение и перемещению внутри генома [5]. Мною было обнаружено 2 копии транспозона в мегаплазмиде pTbrSNM4-1b и 4 копии транспозона в хромосоме (по две копии на плюс и минус цепи). Этот транспозон имеет в составе CDS, кодирующую фермент транспозазу из семейства транспозаз IS630, которая работает по механизму вырезания фрагмента ДНК и вставки его в другое место [6]. Транспозон также несёт CDS, кодирующую winged helix-turn-helix domain-containing protein, который, обладая определённой формой, отвечает за распознавание и связывание ДНК [7].
Можно предположить, что хромосома бактерии изначально не обладала транспозонами, однако в какой-то момент она захватила из внешней среды мега-плазмиду pTbrSNM4-1b, содержащую мобильный генетический элемент, который через некоторое время переместился в хромосому бактерии и распространился уже там.
Кроме этого транспозона, в геноме моей бактерии были обнаружены многие другие элементы полученные в результате горизонтального переноса генов: CDS, кодирующие вирусные белки интегразы, или CDS, кодирующие транспозазы из других семейств.
Кроме генома - совокупности наследственного материала, заключенного в ДНК, каждый организм обладает протеомом - совокупностью всех белков организма. Протеом у каждого вида свой, белки состоят из аминокислот, следовательно и аминокислотный состав протеома тоже свой для каждого вида. Аминокислотный состав протеома можно использовать для того, чтобы понять, насколько близки генетически между собой организмы.
Аминокислотный состав отдельных белков зависит от множества параметров: от функций (допустим, белки-переносчики электронов - ферредоксины - имеют большое количество серосодержащих аминокислот), от местоположения в клетке (белки цитоплазмы будут более гидрофильными, чем белки мембран) и т.д.
Для того, чтобы проанализировать аминокислотный состав моей бактерии и выявить её особенности, нужен объект с которым будет происходить сравнение. В качестве такого объекта/контроля была взята кишечная палочка - Escherichia coli (K12), так как, во-первых, она является наиболее изученной из всех бактерий и часто выступает в качестве образца, а во-вторых, по условиям обитания она мезофил, то есть живёт при умеренных температурах, а значит появиться возможность выявить какую-нибудь зависимость между условиями обитания и аминокислотным составом.
Проанализировав таблицу частот аминокислот в протеоме кишечной палочки и протеоме моей бактерии, можно сделать следующие выводы:
1. 3 самые распространённые аминокислоты Thermus brockianus и E. coli (K12) совпадают: лейцин (L), аланин (A), глицин (G), однако их распространённость в протеоме Thermus brockianus примерно в 1,25-1,3 раза больше (на 2-4 процента).
2. Частота встречаемости изолейцина (I) в бактерии Thermus brockianus меньше, чем у E. coli в 2 раза, частота серосодержащих аминокислот - метионина (M) и цистеина (C) - также примерно в два раза меньше у термофила.
3. Значительно меньшая распространённость аспарагиновой кислоты (D), аспарагина (N), глутамина (N), серина (S) и треонина (T) в протеоме Thermus brockianus (в 1,5 - 2 раза) в сравнении с протеомом бактерии.
4. Однако частота встречаемости у Thermus brockianus глутаминовой кислоты (E), пролина (P) и аргинина (R) больше в ≈1,5 раза
5. Частоты гистидина, лизина и валина у Thermus brockianus отличаются от соответствующих частот в E. coli менее, чем в 1,25 раза.
6. А частоты фенилаланина, триптофана и тирозина почти полностью совпадают у обеих бактерий
7. Частоты аминокислот у Thermus brockianus распределены менее равномерно, чем у E. coli, то есть частоты аминокислот сильнее отличаются от среднего значения = 5%.
Аминокислота | Частота аминокислот Thermus Brockianus | Частота аминокислот E. coli (K12) | Разница в частотах относительно E. coli |
---|---|---|---|
A - Аланин | 11,36% | 9,54% | +1,82% |
C - Цистеин | 0,41% | 1,16% | -0,75% |
D - Аспарагиновая кислота | 3,54% | 5,13% | -1,59% |
E - Глутаминовая кислота | 8,27% | 5,78% | +2,49% |
F - Фенилаланин | 3,80% | 3,89% | -0,09% |
G - Глицин | 9,28% | 7,36% | +1,92% |
H - Гистидин | 1,91% | 2,27% | -0,36% |
I - Изолейцин | 2,83% | 6,01% | -3,18% |
K - Лизин | 3,60% | 4,40% | -0,8% |
L - Лейцин | 14,60% | 10,71% | +3,89% |
M - Метионин | 1,57% | 2,83% | -1,26% |
N - Аспарагин | 1,67% | 3,90% | -2,23% |
P - Пролин | 6,40% | 4,44% | +1,96% |
Q - Глутамин | 2,76% | 4,45% | -1,69% |
R - Аргинин | 8,17% | 5,54% | +2,63% |
S - Серин | 3,58% | 5,78% | -2,2% |
T - Треонин | 3,92% | 5,37% | -1,45% |
V - Валин | 7,94% | 7,09% | +0,85% |
W - Триптофан | 1,47% | 1,53% | -0,06% |
Y - Тирозин | 2,91% | 2,83% | +0,08% |
Thermus Brockianus | Escherichia coli (K12) | |
---|---|---|
Частота гидрофобных аминокислот | 53,30% | 50,03% |
Частота гидрофильных аминокислот | 46,70% | 49,97% |
Частота отрицательно заряженных аминокислот | 11,82% | 10,91% |
Частота положительно заряженных аминокислот | 13,68% | 12,21% |
Также из таблицы 9 можно проследить, что у Thermus brockianus повышенный процент гидрофобных аминокислот в белках относительно Escherichia coli (K12). В одном из исследований говорилось, что у некоторых видов из рода Thermus повышенное содержание гидрофобных аминокислот в некоторых белках приводит к увеличению числа гидрофобных взаимодействий внутри него и увеличивает термостабильность белка [8].
Thermus Brockianus | Escherichia coli (K12) | |
---|---|---|
Частота гидрофобных аминокислот | 44,88% | 44,28% |
Частота гидрофильных аминокислот | 55,12% | 55,72% |
Частота отрицательно заряженных аминокислот | 10,10% | 10,93% |
Частота положительно заряженных аминокислот | 23,74% | 20,67% |
Из таблиц 9 и 10 можно сделать некоторые выводы:
1. Рибосомные белки у обоих видов бактерий имеют схожие закономерности в составе аминокислот: имеют почти что одни и те же проценты гидрофильных, гидрофобных, отрицательно заряженных, положительно заряженных аминокислот.
2. Частота положительно заряженных аминокислот в рибосомных белках почти в два раза больше, чем в среднем по протеому, а частота отрицательно заряженных аминокислот
такая же или чуть меньше, чем в среднем по протеому. Это объясняется тем, что положительный заряд аминокислот в белке облегчает взаимодействие и связывание с отрицательно заряженной РНК.
3. Содержание гидрофильных аминокислот у рибосомных белков выше на 5-8%, чем в среднем у белков бактерии. Что неудивительно для цитоплазматических белков, которые находятся в полярном растворителе и вступают в ионные взаимодействия с РНК.
В данном мини-обзоре был проанализирован и обработан геном термофильной бактерии Thermus brockianus, были найдены частоты всех старт- и стоп-кодонов, объяснены встречающиеся и не встречающиеся пересечения CDS, проанализирован нуклеотидный состав по репликонам, найдены частоты всех аминокислот, которые затем были сопоставлены с частотами аминокислот бактерии Escherichia coli K12. Также были определены особенности рибосомных белков.
1. Команды Bash, используемые для получения данных: *ССЫЛКА*
2. Google-таблица, в которой показаны транспозоны: *ССЫЛКА*
3. Программы на языке Python, использующиеся для получение данных о бактерии: *ССЫЛКА*
4. Parte, A.C., Sardà Carbasse, J., Meier-Kolthoff, J.P., Reimer, L.C. and Göker, M. (2020). List of Prokaryotic names with Standing in Nomenclature (LPSN) moves to the DSMZ. International Journal of Systematic and Evolutionary Microbiology, 70, 5607-5612; DOI: *ССЫЛКА*
5. Schäfers, C., Blank, S., Wiebusch, S., Elleuche, S., & Antranikian, G. (2017). Complete genome sequence of Thermus brockianus GE-1 reveals key enzymes of xylan/xylose metabolism. Standards in genomic sciences, 12, 22. *ССЫЛКА*
6. Goodhead, I., & Darby, A. C. (2015). Taking the pseudo out of pseudogenes. Current opinion in microbiology, 23, 102–109. *ССЫЛКА*
7. Коничев А. С., Севастьянов Г. А. (2005). Молекулярная биология. ISBN 5-7695-1965-7
8. Bourque, G., Burns, K.H., Gehring, M. et al. Ten things you should know about transposable elements. Genome Biol 19, 199 (2018). *ССЫЛКА*
9. Tellier, M., Bouuaert, C. C., & Chalmers, R. (2015). Mariner and the ITm Superfamily of Transposons. Microbiology spectrum, 3(2), MDNA3–2014.. *ССЫЛКА*
10. Gajiwala, K. S., & Burley, S. K. (2000). Winged helix proteins. Current opinion in structural biology, 10(1), 110–116. *ССЫЛКА*
11. Kirino, H., Aoki, M., Aoshima, M., Hayashi, Y., Ohba, M., Yamagishi, A., Wakagi, T., & Oshima, T. (1994). Hydrophobic interaction at the subunit interface contributes to the thermostability of 3-isopropylmalate dehydrogenase from an extreme thermophile, Thermus thermophilus. European journal of biochemistry, 220(1), 275–281. *ССЫЛКА*