Обзор генома и протеома Bifidobacterium dentium JCM 1195 = DSM 20436.

Бетенькова Рената Юрьевна,

Факультет биоинженерии и биоинформатики, Московский государственный университет имени М. В. Ломоносова, Москва, Россия

Зачетная работа по третьему блоку.

1.ВВЕДЕНИЕ

Bifidobacterium dentium JCM 1195 = DSM 20436– грамположительная неподвижная анаэробная бактерия с разветвлёнными колониями. Является источником инфекций полости рта и кишечника.[3] Штамм Bifidobacterium dentium JCM 1195 был выделен из кариеса зубов человека. Геномная последовательность B. dentium JCM 1195 состоит из кольцевой хромосомы длиной 2 635 669 п.н. без плазмид.[1] Из-за своей высокой устойчивости к кислой среде (pH 4,5), B. dentium может развиваться в полости рта, метаболизировать сахара анаэробно, нанося вред зубам. Так, своими биохимическими особенностями данная бактерия может быть интересна для медицинских исследований.

2.МАТЕРИАЛЫ И МЕТОДЫ

Для проверки гипотезы и составления сопроводительных таблиц и гистограмм была использована программа Google sheets. Все таблицы можно найти в сопроводительных материалах. Для анализа данных использовались различные функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН, МЕДИАНА, МИН, МАКС, ВПР (VLOOKUP), а также сделанная плоская таблица. Использованы методы фильтрации, сортировки, относительной и абсолютной адресации, связи таблиц, специальной вставке, условного форматирования, распространения формул, построения гистограмм. Для проверки гипотезы случайного распределения генов был использован статистический критерий p-value. GCF_001042595.1

3.РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ

3.1 Длина генома и нуклеотидный состав. [5]

Длина генома исследуемого штамма составила 2635669 п.н., что соответствует средним размерам бактериальных нуклеоидов.[4] Для определения нуклеотидного состава и GC состава использовались команды bash: 1. wordcount -wordsize 1 {имя входного фаста файла } {имя выходного текстового файла} 2. geecee {имя входного фаста файла } {имя выходного текстового файла}

Таблица 1: Количество нуклеотидов
Нуклеотид A(шт) T(шт) C(шт) G(шт)
Количество 776921 776921 551072 541731

Применение функции p – value, показало, что нулевая гипотеза о случайности появления буквы A или T из комплементарной пары A-T на одной цепочке ДНК с вероятностями по 1/2 и независимо друг от друга не верна, следовательно, такое распределение нуклеотидов неслучайно. Можем утверждать, что второе правило Чарграффа работает и количество А ≈ Т. Для генома Bifidobacterium dentium JCM 1195 характерно преобладание GC пар (59%). Между гуанином и цитозином три водородные связи, которые обуславливают устойчивость молекулы ДНК к нагреванию, предотвращая денатурацию. Следовательно, данный штамм представлен термофильными бактериями. Род Бифидобактерий относится к типу Актинобактерий, средний состав GC в котором, согласно работе Джона Лайтфилда , Ша Ноа Р. Фрама и Берта Эли, равен 58,4 %. Следовательно, можно считать, что GC состав характерен для данного типа, влияет на использование кодонов аналогичных моделей белков и “содержание GC, по-видимому, является основным фактором, определяющим паттерны использования кодонов и аминокислот, наблюдаемые в бактериальных геномах”.[2]

3.2 Категоризация и подсчёт генов по категориям.[6]

Таблица 2:Распределение генов по цепям ДНК
Protein Pseudogen rRNA RNase _P_R NA SRP_ RNA tRN A tmRNA
+ 1093 13 0 1 1 32 1
- 1021 19 13 0 0 24 0
P-value 0,10315 0,0002 44 1 1 0,35 1

В ходе данной работы все гены данного штамма были разбиты на следующие категории : белок-кодирующие последовательности, последовательности, кодирующие РНК ( были выделены подкатегории tRNA - , tm-RNA -, rRNA – и SRP_RNA - кодирующие последовательности), ,псевдогены. В общей сложности, данный штамм несет 2118 генов, из которых 2704 кодируют белок, оставшиеся 104 — РНК кодирующие. Результаты представлены на рис.3.2.1.

Рисунок 3.2.1 Распределение генов по категориям.
graph

3.3 Распределение генов по прямой и обратной цепи.[7]

Из данных Таблицы 2 видно, что гены белков и псевдогены распределены по цепям в целом равновероятно. Это подтверждает теорию о равнозначности обеих цепей ДНК в клетках любого организма. Число генов РНК распределено по цепочкам неравномерно. Была проверена гипотеза о случайном распределении генов по цепям с помощью p value. Для генов РНК его значение мало. Для выяснения причины требуется больше исследований.

3.4 Распределение белков по длинам.[8]

В рамках работы был проведен анализ длин белковых последовательностей (Рис. 3.4.1)

Рис. 3.4.1 Распределение белков по длинам.
graph

Больше всего белков, которые кодируются участком длины от 700-800 нуклеотидов, что составляет примерно 230-270 аминокислотных остатков. Второй пик наблюдается в диапазоне от 900- 100 нуклеотидов (300-340 а.о.). Из статистических данных можно сделать вывод, что большинство белков данной бактерии имеют относительно небольшую длину. Два пика, видимо, получаются путем сочетания нормального распределения отдельно для одно- и для двудоменных белков.

3.5 Анализ k-меров с маленьким k.[9]

В ходе работы были проверены k-меры длины три с помощью команд bash: 1. wordcount -wordsize 3 {имя входного фаста файла} words-3 2. cbcalc -s word-3 -K {имя входного фаста файла} > {имя выходного текстового файла} Для каждого k-мера вычислено ожидаемое по статистике число его встреч в геноме и отношение {наблюдаемое}/{ожидаемое}. Результаты представлены гистограммой 3.5.1. Если отношение cb меньше 0.8, то k-мер считается недопредставленным, таких в геноме B. dentium 6, если же больше 1.2 – перепредставленным, таких 4. Причина появления экстремалов по cb чаще всего не известна. Не соответствие ожидаемых k – меров наблюдаемым может вызывать Больше всего белков, которые кодируются участком длины от 700-800 нуклеотидов, что затруднения у биоинформатиков при сборке и анализе геномов.

Рис. 3.5.1. Анализ k-меров, k = 3.
graph

3.6 Статистика белков по категориям достоверности их существования.[10]

Используя базу данных Uniprot[5], белки исследуемого штамма были проверены на достоверность, оказалось, что 47,4% белков предсказаны, 52,6% определены из гомологии. Чтобы разобраться, что это значит, я вводила в поисковую строку UniprotKB следующую команду: name:"название белка " taxonomy: “род бактерии “. Проделав это для предсказанного белка Small molecule-binding regulator domain protein, получила только название самого вида Bifidobacterium sp. MSTE12. Введя в поиск белок Sugar-binding protein of ABC transporter system, характерный для метаболизма данного вида, выведенный из гомологии, получила 65 гомологичных белков, принадлежащим 24 родственным штаммам этого вида. Таким образом, анализ продуктов генов через Protein existence в Uniprot, дает представление о происхождении белков, наличии гомологов, родственных штаммов организма. Белки, участвуют в метаболизме сахаров, специфичны для данного вида бактерий, обуславливают и патогенность B. dentium.

4. ЗАКЛЮЧЕНИЕ

В ходе исследования был проанализирован геном и протеом штамма Bifidobacterium dentium JCM 1195 = DSM 20436 по некоторым критериям. Были выявлены и подтверждены статистическими методами как общеизвестные факты, так и необычные закономерности, которые требуют дальнейшего изучения. Было бы интересно продолжить анализ протеома бактерии, для возможности использования полученных данных в медицин и промышленности. Необходимо также проверить корректность результатов, сравнив с надежными источниками.

БЛАГОДАРНОСТИ

Хотелось бы выразить благодарность преподавателям факультета биоинженерии и биоинформатики МГУ: Алексеевскому А.В., Спирину С.А. за предоставленные знания, а также Русинову И.С. и Зинкевичу А. за помощь в постижении биоинформатики.

СОПРОВОДИТЕЛЬННЫЕ МАТЕРИАЛЫ

Сопроводительные материалы доступны по ссылке: материалы

СПИСОК ЛИТЕРАТУРЫ

[1] – Hidehiro Toh. Complete Genome Sequence of Bifidobacterium dentium Strain JCM 1195T, Isolated from Human Dental Caries. – 2015. – Том 3. PMID: 25858847 PMCID: PMC4392159

[2] - John Lightfield. Across Bacterial Phyla, Distantly-Related Genomes with Similar Genomic GC Content Have Similar Patterns of Amino Acid Usage – 2011; 6(3): e17677. PMCID:PMC3053387 PMID: 21423704

[3] - "https://en.wikipedia.org/w/index.php?title=Bifido bacterium_dentium&oldid=966424155"

[4] - "https://img.jgi.doe.gov/cgi bin/m/main.cgi?section=TaxonDetail&page=taxo nDetail&taxon_oid=2816332288"

[5] – Uniprot