Бетенькова Рената Юрьевна,
Факультет биоинженерии и биоинформатики, Московский государственный университет имени М. В. Ломоносова, Москва, Россия
Для проверки гипотезы и составления сопроводительных таблиц и гистограмм была использована программа Google sheets. Все таблицы можно найти в сопроводительных материалах. Для анализа данных использовались различные функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН, МЕДИАНА, МИН, МАКС, ВПР (VLOOKUP), а также сделанная плоская таблица. Использованы методы фильтрации, сортировки, относительной и абсолютной адресации, связи таблиц, специальной вставке, условного форматирования, распространения формул, построения гистограмм. Для проверки гипотезы случайного распределения генов был использован статистический критерий p-value. GCF_001042595.1
Длина генома исследуемого штамма составила 2635669 п.н., что соответствует средним размерам бактериальных нуклеоидов.[4] Для определения нуклеотидного состава и GC состава использовались команды bash: 1. wordcount -wordsize 1 {имя входного фаста файла } {имя выходного текстового файла} 2. geecee {имя входного фаста файла } {имя выходного текстового файла}
Таблица 1: Количество нуклеотидов | |||||
Нуклеотид | A(шт) | T(шт) | C(шт) | G(шт) | |
---|---|---|---|---|---|
Количество | 776921 | 776921 | 551072 | 541731 |
Применение функции p – value, показало, что нулевая гипотеза о случайности появления буквы A или T из комплементарной пары A-T на одной цепочке ДНК с вероятностями по 1/2 и независимо друг от друга не верна, следовательно, такое распределение нуклеотидов неслучайно. Можем утверждать, что второе правило Чарграффа работает и количество А ≈ Т. Для генома Bifidobacterium dentium JCM 1195 характерно преобладание GC пар (59%). Между гуанином и цитозином три водородные связи, которые обуславливают устойчивость молекулы ДНК к нагреванию, предотвращая денатурацию. Следовательно, данный штамм представлен термофильными бактериями. Род Бифидобактерий относится к типу Актинобактерий, средний состав GC в котором, согласно работе Джона Лайтфилда , Ша Ноа Р. Фрама и Берта Эли, равен 58,4 %. Следовательно, можно считать, что GC состав характерен для данного типа, влияет на использование кодонов аналогичных моделей белков и “содержание GC, по-видимому, является основным фактором, определяющим паттерны использования кодонов и аминокислот, наблюдаемые в бактериальных геномах”.[2]
Таблица 2:Распределение генов по цепям ДНК | |||||||
Protein | Pseudogen | rRNA | RNase _P_R NA | SRP_ RNA | tRN A | tmRNA | |
---|---|---|---|---|---|---|---|
+ | 1093 | 13 | 0 | 1 | 1 | 32 | 1 |
- | 1021 | 19 | 13 | 0 | 0 | 24 | 0 |
P-value | 0,10315 | 0,0002 | 44 | 1 | 1 | 0,35 | 1 |
В ходе данной работы все гены данного штамма были разбиты на следующие категории : белок-кодирующие последовательности, последовательности, кодирующие РНК ( были выделены подкатегории tRNA - , tm-RNA -, rRNA – и SRP_RNA - кодирующие последовательности), ,псевдогены. В общей сложности, данный штамм несет 2118 генов, из которых 2704 кодируют белок, оставшиеся 104 — РНК кодирующие. Результаты представлены на рис.3.2.1.
В рамках работы был проведен анализ длин белковых последовательностей (Рис. 3.4.1)
Больше всего белков, которые кодируются участком длины от 700-800 нуклеотидов, что составляет примерно 230-270 аминокислотных остатков. Второй пик наблюдается в диапазоне от 900- 100 нуклеотидов (300-340 а.о.). Из статистических данных можно сделать вывод, что большинство белков данной бактерии имеют относительно небольшую длину. Два пика, видимо, получаются путем сочетания нормального распределения отдельно для одно- и для двудоменных белков.
В ходе работы были проверены k-меры длины три с помощью команд bash: 1. wordcount -wordsize 3 {имя входного фаста файла} words-3 2. cbcalc -s word-3 -K {имя входного фаста файла} > {имя выходного текстового файла} Для каждого k-мера вычислено ожидаемое по статистике число его встреч в геноме и отношение {наблюдаемое}/{ожидаемое}. Результаты представлены гистограммой 3.5.1. Если отношение cb меньше 0.8, то k-мер считается недопредставленным, таких в геноме B. dentium 6, если же больше 1.2 – перепредставленным, таких 4. Причина появления экстремалов по cb чаще всего не известна. Не соответствие ожидаемых k – меров наблюдаемым может вызывать Больше всего белков, которые кодируются участком длины от 700-800 нуклеотидов, что затруднения у биоинформатиков при сборке и анализе геномов.
В ходе исследования был проанализирован геном и протеом штамма Bifidobacterium dentium JCM 1195 = DSM 20436 по некоторым критериям. Были выявлены и подтверждены статистическими методами как общеизвестные факты, так и необычные закономерности, которые требуют дальнейшего изучения. Было бы интересно продолжить анализ протеома бактерии, для возможности использования полученных данных в медицин и промышленности. Необходимо также проверить корректность результатов, сравнив с надежными источниками.
Хотелось бы выразить благодарность преподавателям факультета биоинженерии и биоинформатики МГУ: Алексеевскому А.В., Спирину С.А. за предоставленные знания, а также Русинову И.С. и Зинкевичу А. за помощь в постижении биоинформатики.
[1] – Hidehiro Toh. Complete Genome Sequence of Bifidobacterium dentium Strain JCM 1195T, Isolated from Human Dental Caries. – 2015. – Том 3. PMID: 25858847 PMCID: PMC4392159
[2] - John Lightfield. Across Bacterial Phyla, Distantly-Related Genomes with Similar Genomic GC Content Have Similar Patterns of Amino Acid Usage – 2011; 6(3): e17677. PMCID:PMC3053387 PMID: 21423704
[3] - "https://en.wikipedia.org/w/index.php?title=Bifido bacterium_dentium&oldid=966424155"
[5] – Uniprot