Бактерия вида Defluviicoccus vanus рода Defluviicoccus семейства Geminicoccaceae отряда Rhodospirillales класса Alphaproteobacteria типа Pseudomonadota домена Bacteria – грамотрицательная бактерия, выделенный из образца биомассы с завода по производству активного ила EBPR [1].
Представители рода Defluviicoccus встречаются в очистных сооружениях сточных вод в виде кластерных или тетрадных колоний [1]. Особенностью представителей Defluviicoccus является накопление гликогена, что связано с проживанием в чередующихся условиях анаэробного питания [2].
Материалы про геном, кодирующие последовательности ДНК, последовательности аминокислот бактерии были взяты из источника {1}.
Гистограммы длин белков и расстояний между кодирующими последовательностями были построены с помощью Google Sheets {2}, {3}. Источник данных {1.1}.
Таблица старт кодонов была построена с помощью Google Sheets {4}. Результаты для этой таблицы были получены с помощью скриптов написанных в bash {5}. Источник данных {1.1}.
Результаты для GC-содержания (источник данных {1.3}); получение аминокислотных последовательностей из кодирующих последовательностей ДНК и сравнение с уже имеющимися данными (источник данных {1.1}, {1.2}); подсчета количества белков начинающихся с метионина и с других аминокислот (источник данных {1.2}) были получены с помощью программ на языке Python {6}, {7}, {8}.
Из рис.1 видно, что наибольшее число белков состоит примерно из 25 - 550 аминокислот. Также средняя длина белка составляет 315 аминокислот, что в среднем оказывается немного больше, чем у других представителей Класса Alphaproteobacteria [3].
Полученный результат сходится со средней длинной белков у прокариот [4].
Из рис.2 можно заметить, что большая часть кодирующих последовательностей располагается рядом друг с другом. Также не маленькое количество последовательностей начинаются внутри предыдущих, что на гистограмме представлено самым левым столбцом, с отрицательными значениями расстояния. Из этого можно сделать предположение, что: либо одна из пересекающихся последовательностей является псевдогеном; либо механизм расположения кодирующих последовательностей устроен так, чтобы синтезировать максимальное количество белков с минимального по длине участка.
В рассмотрение брались все последовательности, кодирующие белки (не только сонаправленные).
Под остальными кодонами имеется ввиду: AAG, AAT, AAN, AGG, AGC, ACA, ACG, GAG, GAC, GGT, GTA, CAA, CAG, CAT, CCA, CCG, TAC, TGC, TCA. Каждый из них встретился в All CDS и Pseudo CDS ровно один раз.
Из табл. 1 видно, что большее количество генов имеет старт-кодон ATG, который является наиболее распространённым [5]. Но также встречаются и другие старт-кодоны [5], в том числе те, у которых не определены некоторые нуклеотиды. Также можно заметить, что многие нестандартные старт кодоны являются старт-кодонами псевдогенов.
Стоит отметить немалое количество встреченных старт-кодонов GTG и TTG.
GC-содержание генома составило 63,542%. Это является довольно большим показателем, так как у Alphaproteobacteria GC-содержание варьируется в среднем от 30% до более 60% [6].
Повышенное содержание GC с большей вероятностью не вызвано ошибкой секвенирования, трансляционным отбором, смещенной генной конверсией или горизонтальным переносом генов. А также говорит о потенциальном качественном естественном отборе в сторону увеличения GC-содержания в геноме, так как при увеличении содержания GC увеличивается количество мутаций GC→AT [6].
Выявлено, что расхождения наблюдались только в старт кодонах. Последовательности аминокислот (в имеющемся источнике данных) начинаются с метионина (Met) независимо от того, с какого триплета начинается кодирующая последовательность. Это может быть связано с окружающими старт-кодон последовательностями [8], [9].
Кроме того частота встречаемости старт-кодонов GTG (15,822%) оказалась выше, чем в среднем, а TTG (6,929%) ниже [7], что подкрепляется GC-содержанием, определенном в прошлом пункте.
Данная программа выдаёт встречаемость старт кодонов с небольшой погрешностью (данные расходятся с результатами, полученными в 3.3), так как она показывает сколько раз метионин кодировался не триплетом ATG, а другим триплетом. Например триплет GTG в данном случае встретился только 596 раз, а не 597, так как в одном из случаев он кодировал именно свою аминокислоту (Val).
Было выявлено, что все белковые последовательности начинающиеся не с метионина, которых оказалось 78 штук, оказались псевдогенами. Это может говорить о том, что организму невыгодно синтезировать белки с аминокислот отличных от метионина.
Все эти псевдогены начинались с триплетов отличных от ATG, то есть их старт кодоны кодировали именно тот белок, который и должны, а не подавлялись и не кодировали метионин [8], [9]. Эти данные объясняют небольшие расхождения в предыдущем пункте.
Таблица 1. Частота встречаемости разных старт кодонов
Codons | All CDS {5.1} | Pseudo CDS {5.2} | Normal CDS |
---|---|---|---|
ATG | 2747 | 177 | 2570 |
GTG | 597 | 23 | 574 |
TTG | 257 | 9 | 248 |
CTG | 40 | 5 | 35 |
ATC | 35 | 3 | 32 |
ATT | 17 | 3 | 14 |
CGG | 8 | 8 | 0 |
GGC | 7 | 7 | 0 |
ATA | 4 | 1 | 3 |
GCC | 4 | 4 | 0 |
CGC | 4 | 4 | 0 |
TTC | 4 | 4 | 0 |
AAC | 2 | 2 | 0 |
ACC | 2 | 2 | 0 |
GGG | 2 | 2 | 0 |
GCT | 2 | 2 | 0 |
GTC | 2 | 2 | 0 |
CCC | 2 | 2 | 0 |
CTA | 2 | 2 | 0 |
CTC | 2 | 2 | 0 |
CTT | 2 | 2 | 0 |
TAT | 2 | 2 | 0 |
TCC | 2 | 2 | 0 |
NTG | 2 | 0 | 2 |
Остальные | 19 | 19 | 0 |
Выражаю благодарность Нагорному Даниилу Васильевичу, Аржаевой Елене Викторовне, Балакиной Ольге Александровне и Скоморохову Глебу Егоровичу, за поддержание морального духа и за некоторые правки по работе. Без их поддержки я бы не справился.