Sphingobium indicum B90A. Genome review

АННОТАЦИЯ

Данный обзор посвящен геному штамма B90A альфа-протеобактерии Sphingobium indicum. В данной работе был проведен анализ GC-состава, типов генов, k-меров, была построена диаграмма длин генов, определены координаты генов рибосомных белков и рРНК.

1. ВВЕДЕНИЕ

Sphingobium indicum - вид альфа-протеобактерий из семейства Sphingomonadaceae, живущий в почве. Отличительной чертой семейства является наличие гликосфинголипидов на внешней мембране[1], чем и обязано название семейства. Особенностью данного вида является способность метаболизировать гексахлороциклогексан (HCH)[2]. В данной работе был исследован геном штамма Sphingobium indicum B90A, который составляет примерно 3945 килобаз.

2. МАТЕРИАЛЫ И МЕТОДЫ

Данные о геноме были получены из открытой библиотеки NCBI[3]. Для анализа данных была использована программа LibreOffice Calc, а также применялись скрипты, написанные на Python. Визуализация полученной информации производилась также в LibreOffice.

3. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Геном Sphingobium indicum B90A представлен одной кольцевой хромосомой и тремя плазмидами. ДНК данной бактерии в совокупности составляет 3945926 нуклеотидов точно. Доля гуанина и цитозина (GC) на хромосоме составляет 64.18%, на плазмидах: 64,10%, 65,9%, 62,5%. Из этого следует устойчивость ДНК Sphingobium indicum к денатурации.

Белок РНК
Ген Псевдоген тРНК рРНК тмРНК 7SL РНК РНКаза P
Кол-во 3670 76 52 6 1 1 1

3.1. Анализ k-меров

Наиболее часто встречающимися словами в данном геноме оказались CG, GC, GG, CC, наименее частые слова: TA и TT для k = 2.

При k = 3 наиболее встречающиеся слова: GCG, CGC и GGC, наиболее редкие: TAA, TAG и GTA.

3.2. Анализ протеома

Геном Sphingobium indicum B90A в совокупности содержит 3670 белок-кодирующих генов. Причем 1823 из них лежат на (-)-цепи, что свидетельствует о случайном распределении генов белков по цепям с вероятностью более 90%.

Среднее значение длины белок-кодирующего гена — 952,5 нуклеотида. Самым длинным геном оказался Tandem 95 repeat protein, составляющий 8851 нуклеотид. Функция белка, который кодирует данный ген, неизвестна, но он содержит повторяющийся VCBS-домен, характерный для родов Vibrio, Colwellia, Bradyrhizobium и Shewanella[4]. Предполагается, что данный домен играет некоторую роль в адгезии[4].

3.3. Расположение генов рибосомных белков и рРНК

Ниже представлена таблица координат рибосомных белков и РНК Sphingobium indicum B90A. Видна закономерность расположения генов тРНК: все они располагаются близко друг от друга за исключением копий двух генов рРНК 5S и 23S малой субъединицы рибосомы, находящихся на одной из плазмид (PSRL1).


Таблица координат генов рибосомных белков и рРНК по данным листа S4 таблицы Nikonov-suppl-fin
НазваниеЦепьНачалоКонец
50S ribosomal protein L7/L12+3924340136
50S ribosomal protein L10-4035540735
50S ribosomal protein L28-5092751148
50S ribosomal protein L27-241805242395
50S ribosomal protein L21-242669242938
50S ribosomal protein L1-245812247542
50S ribosomal protein L11-247796248494
30S ribosomal protein S2+584876586699
50S ribosomal protein L31+596274597053
30S ribosomal protein S4+923385925292
30S ribosomal protein S1+948572948943
ribosomal protein S18-alanine N-acetyltransferase-10582371059394
50S ribosomal protein L25/general stress protein Ctc-11293761129951
30S ribosomal protein S15-13488451351820
30S ribosomal protein S6-13802841381204
30S ribosomal protein S18-13812741381855
50S ribosomal protein L9-13818551382748
30S ribosomal protein S12 methylthiotransferase RimO-16368631637798
50S ribosomal protein L19+18236761824713
30S ribosomal protein S16-18262141826981
50S ribosomal protein L11 methyltransferase-18449991846042
30S ribosomal protein S20-19905171991032
50S ribosomal protein L34+20441992044816
30S ribosomal protein S21-21488352149980
50S ribosomal protein L15+21643702165287
50S ribosomal protein L30+21654762165766
30S ribosomal protein S5+21657632166074
50S ribosomal protein L18+21660892166982
50S ribosomal protein L6+21669792167653
30S ribosomal protein S8+21676502168267
30S ribosomal protein S14-21683712169240
50S ribosomal protein L5-21692422170642
50S ribosomal protein L24-21706852171311
50S ribosomal protein L14-21713082171718
30S ribosomal protein S17-21717912172621
50S ribosomal protein L29-21726582173233
50S ribosomal protein L16-21733612174281
30S ribosomal protein S3-21743992176066
50S ribosomal protein L22-21760852177098
30S ribosomal protein S19+21773892177970
50S ribosomal protein L2+21779742178711
50S ribosomal protein L23+21787082179109
50S ribosomal protein L4+21791412180034
50S ribosomal protein L3+21800582181155
30S ribosomal protein S10-21814722182032
30S ribosomal protein S7+21834662185337
30S ribosomal protein S12+21853842186631
30S ribosomal protein S9+21871112187575
50S ribosomal protein L13+21875812188975
50S ribosomal protein L32+27218002722306
50S ribosomal protein L36-28165522817379
30S ribosomal protein S13-28819882882482
30S ribosomal protein S11-28824722882687
50S ribosomal protein L17+28834352883908
30S ribosomal protein S14-30708613071475
50S ribosomal protein L33-31517213152635
5S ribosomal RNA-31960333196947
23S ribosomal RNA-31969473197657
16S ribosomal RNA-31997083200415
50S ribosomal protein L20+33318263332884
50S ribosomal protein L35+33328813333405
5S ribosomal RNA+36494273650098
23S ribosomal RNA+36502613650716
16S ribosomal RNA+36519033652793

ЗАКЛЮЧЕНИЕ

Согласно результатам исследования геном Sphingobium indicum B90A составляет 3945926 пар нуклеотидо точно. Доля GC в ДНК составляет 64.18%, что может свидетельствовать о ее устойчивости к денатурации. Согласно результату анализа k-меров наиболее частыми словами оказались CG, GC, GG, CC (для k=2), GCG, CGC и GGC (k=3), наименее частыми - TA и TT (k=2), TAA, TAG и GTA (K=3). Среди 3670 белок- кодирующих генов закономерности расположения по цепям не наблюдалось. Средняя длина белок-кодирующего гена составляет 952,5 нуклеотидов. Саммы длинным геном (8851 пар нуклеотидов) оказался ген Tandem 95 repeat protein, кодирующий белок с неизвестной функцией с VCBS-доменом, возможно, участвующий в адгезии. Закономерностей в расположении рибосомных белков не наблюдалось, но гены рРНК сконцентрированы в одной области кроме копий двух генов рРНк малой субъединицы, находящихся на плазмиде.

БИБЛИОГРАФИЯ

[1] Garrity GM, Brenner DJ, Krieg NR et al. (2005). "Bergey's Manual of Systematic Bacteriology. Two The Proteobacteria, Part C: The Alpha-, Beta-, Delta-, and Epsilonproteobacteria". New York, New York: Springer.

[2] Pal, R. (2005). "Hexachlorocyclohexane-degrading bacterial strains Sphingomonas paucimobilis B90A, UT26 and Sp+, having similar lin genes, represent three distinct species, Sphingobium indicum sp. nov., Sphingobium japonicum sp. nov. and Sphingobium francense sp. nov., and reclassification of [Sphingomonas] chungbukensis as Sphingobium chungbukense comb. nov". International Journal of Systematic and Evolutionary Microbiology.

[3] Директория с данными NCBI о геноме Sphingobium indicum B90A ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/264/945/ GCF_000264945.2_ASM26494v2

[4] Данные NCBI по домену VCBS https://www.ncbi.nlm.nih.gov/Structure/cdd/TIGR01965

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

1. Таблица Nikonov-suppl-fin.xlsx kodomo.fbb.msu.ru/~w0lfgang/term1/Nikonov_suppl_fin.xlsx

2. Скрипты Python https://kodomo.fbb.msu.ru/~w0lfgang/term1/scripts