Обзор генома и протеома бактерии Chlorobaculum tepidum TLS

Автор: Струкова Вера, студентка 1 курса Факультета биоинженерии и биоинформатики МГУ. им Ломоносова

РЕЗЮМЕ

Данная работа является кратким анализом генома и протеома бактерии Chlorobaculum tepidum TLS, выполненным с помощью электронных таблиц (Google Sheets) и программ Linux. Были проанализированы длина генома, нуклеотидный состав, типы генов, определены частота GC - пар и CDS (гены, кодирующие белки), длина белков.

Ключевые слова: бактерия, геном, протеом, Chlorobaculum tepidum TLS, ген, белок.

1. ВВЕДЕНИЕ

Chlorobaculum tepidum TLS – зелёная серная бактерия, входящая в семейство грамотрицательных Chlorobiaceae.[1] Впервые была получена из горячего источника в р. Роторуа, Новая Зеландия, предпочитает бескислородную среду с оптимальным количеством света, например, глубокие озёра, глубоководные источники термальных вод и т.д.[1] Эта бактерия является фотолитотрофом, окисляет сульфид до элементарной серы или элементарную серу и тиосульфат до сульфата.[1]Хорошо культивируется, является модельным организмом сем. Chlorobiaceae для изучения фототрофного окисления серы.[1] Геном Chlorobaculum tepidum представлен 2 154 946 парой нуклеотидов, заключённых в единственную хромосому.[2] В данной работе производился анализ генома и протеома бактерии Chlorobaculum tepidum.

2.МАТЕРИАЛЫ И МЕТОДЫ

Последовательность ДНК бактерии была получена из открытой базы данных NCBI [3], скопирована в файл и перенесена на kodomo[4]. При работе использовались различные методы работы с электронными таблицами (Google Sheets), такие как:

1.Импортирование данных;

2.Фильтр столбцов;

3.Сортировка столбцов;

4.Создание новых листов;

5.Использование функции ВПР для переноса данных между листами;

6.Создание плоских таблиц;

7.Копирование и вставка;

8.Использование значка $ для распространения формул;

9.Оформление таблицы;

10.Уничтожение формул;

11.Вставка примечаний;

12.Функции СЧЁТЕСЛИ и СЧЁТЕСЛИМН, которые позволяют подсчитать количество значений столбца данных, соответствующих одному или нескольким критериям;

13.Функция ОКРУГЛ для округления значений;

14.Создание сводных таблиц;

15.Построение гистограмм.

Также были применены программы Linux и методы работы с ним:

1.wordcount -wordsize 1 - подсчет количества нуклеотидов;

2.geecee - подсчет GC - пар;

3.wordcount -wordsize n - вычисление количества k - меров определённой длины n;

4.cbcalc -s words-n -K - расчёт O/E (отношение наблюдаемой частоты последовательности длины n к ожидаемой);

5.cusp - вывод частоты использования кодонов, кодирующих одну и ту же аминокислоту;

6.Работы с файлами с помощью программы WinSCP (загрузка в credits на kodomo).

3.РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ

3.1 Размер генома Chlorobaculum tepidum TLS

Размер генома C. tepidum составляет 2154946 п.н.[2] и представлен одной хромосомой, что указано на листе genome_size сопроводительных материалов. В целом, это довольно маленький геном, который, однако, не выходит за пределы известных нам геномов[5].

3.2 Типы генов

В таблице 1 представлены типы генов, встречающиеся в геноме бактерии (лист genes_per_types сопроводительных материалов). Материалы были взяты из таблицы genes.

По результатам исследований можно заключить, что геном бактерии в большей степени представлен генами, кодирующими белки (2079). На втором месте по количеству находятся псевдогены (68). Псевдоген - “нефункционирующий гомолог работающего гена, потерявший способность кодировать белок или функциональную мРНК”[6]. Псевдогены могут служить значимым источником генетической изменчивости, поэтому имеют важное значение для жизненного цикла бактерии [6].

Кроме того, в составе генома C. tepidum встречаются гены, кодирующие транспортные РНК (тРНК), рибосомальные РНК (рРНК), транспортно - матричные РНК (тмРНК), сигнальные РНК и РНКазу P.

Таблица 1:Типы генов
Тип генов Количество
кодирующие белки 2079
псевдогены 68
тРНК 50
рРНК 6
тмРНК 1
Сигнальная РНК 1
РНКаза Р 1

3.3 Количество и соотношение различных нуклеотидов

С помощью программы Linux wordcount -wordsize 1 было подсчитано количество аминокислот, результаты подсчетов представлены на рисунке 1. Дополнительно их можно посмотреть на листе nucleotide_composition. Нетрудно заметить, что в геноме помимо типичных A, T, G, C встречаются ещё буквы S, Y, M, R. Это специальные обозначения для нуклеотидов, которые не получилось определить при секвенировании, по коду IUPAC R - это A или G, S - G или C, M - A или C, Y - C или T [7.] В дальнейшем эти неопределенные нуклеотиды исключены из исследования в целях получения более простых и точных результатов. Данная гистограмма показывает примерно равное количественное соотношение G и C, A и T. Их стандартные отклонения (5417 и 4470) довольно маленькие, что говорит о выполнении правила Чаргаффа.

image 1
Рисунок 1. Процент нуклеотидов

3.4 Соотношение GC/AT

Обратимся к листу frequency сопроводительных материалов. При помощи программы geecee было рассчитано количественное соотношение GC - пар (0,57 или 57%) к AT - парам (0,43 или 43%). Как мы видим, GC - пар больше, чем AT - пар. GC - состав является важной характеристикой бактерий. Поскольку в таких парах образуется не две, а три водородные связи между нуклеотидами, они гораздо прочнее, чем AT. Далеко не всегда количество GC можно соотнести с местом обитания бактерии[5]. Как было сказано выше, С. tepidum часто проживает в горячих источниках, поэтому возникает необходимость укрепления молекулы ДНК. Возможно, относительно большое количество GC - пар способствует такой прочности.

Таблица 2:Количество и частоты кодонов, кодирующих аминокислоты
Аминокислоты Количество кодонов Мин Макс
A 4 12,087 37,846
C 2 2,048 9,233
D 2 20,918 30,973
E 2 29,245 37,789
F 2 12,832 29,926
G 3 9,258 43,659
Итого 15 2,048 43,659

3.5 Частоты использования кодонов, кодирующих одни аминокислоты.

На листе codon_usage_table_test и codon_usage_table сопроводительных материалов представлены, соответственно, количество и частота кодонов, кодирующих аминокислоты в геноме бактерии, и сводная таблица с данными наиболее и наименее часто используемых кодонов. Сводная таблица приведена ниже в качестве таблицы 2.

Можно заметить, что наибольшее количество кодонов имеет A - аланин, что соответствует таблице генетического кода, знакомой всем нам[8]. Стоить отметить, что в таблице 2 используется однобуквенный код аминокислот, где A - аланин, C - цистеин и т.д. Однобуквенный код следует смотреть так же по ссылке[8]. В случае аланина наименее часто используемый кодон - GCT, самый часто используемый - GCC.

После аланина по количеству используемых кодонов для кодирования одной аминокислоты идёт G - глицин. Это три кодона. А вот аминокислоты C (цистеин), D (аспарагиновая кислота), E (глутаминовая кислота) и F (фенилаланин) зашифрованы в геноме только с помощью двух кодонов. В целом, аминокислотный код данной бактерии ничем не отличается от такового у подавляющего большинства других живых организмов, что в который раз подтверждает его универсальность[9].

В геноме довольно много кодонов, соответствующих отрицательно заряженным глутаминовой и аспарагиновой кислотам, глицину. Наибольшее количество составляют аланиновые триплеты (58562). Аланин является сильно гидрофобной кислотой, его боковая цепь насыщена углеводородными группами[10] Глутаминовая и аспарагиновая кислоты в растворах имеют отрицательный заряд[10].

Можно предположить, что такой состав аминокислот связан с окислительной способностью C. tepidum, участвующей в реакциях соединений серы.

3.6 Гистограмма длин белков

На рисунке 2 представлена гистограмма длин белков. Её создание можно посмотреть в сопроводительных материалах (лист proteins).

Протеом бактерии представлен в основном небольшими белками (100-300 аминокислот). Длина лежит в пределах 32 - 1534 аминокислот. Всего лишь три белка имеют длину более 1500 аминокислотных остатков. Самый длинный белок (1534) - это большая субъединица глутаматсинтазы, самый короткий (32) - Белок, содержащий сортирующий домен PEP-CTERM. Все данные были взяты из таблицы genes сопроводительных материалов.

image 2
Рисунок 2.Гистограмма длин белков.

По горизонтальной оси указаны диапазоны длины белков, по вертикальной - количество белков, подходящих под данный диапазон.

4. ВЫВОДЫ

На рисунке 2 представлена гистограмма длин белков. Её создание можно посмотреть в сопроводительных материалах (лист proteins).

В данном мини - обзоре был определён размер генома, который укладывается в стандартные рамки размеров геномов бактерий. Подсчитаны типы генов, кодирующих разные белки, количество и соотношение нуклеотидов, которое соответствует правилу Чаргаффа. Соотношение GC/AT, полученное в исследовании, соотносится с местом обитания C. tepidum. Частоты кодонов, кодирующих разные аминокислоты, соответствует сложившимся представлениям об аминокислотном коде. Было уточнено возможное значение аминокислот в жизнедеятельности бактерии. Гистограмма длин белков показала, что в протеоме C.terpidum больше всего относительно коротких белков.

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

Хромосомная таблица с материалами исследования Strukova_supple_fin:

  1. Лист genes (информация о генах бактерии);
  2. Лист genome_size (размер генома);
  3. Лист genes_per_types (количество разных типов генов);
  4. Лист nucleotide_composition (количество разных нуклеотидов в геноме, их процентное соотношение, стандартное отклонение, гистограмма);
  5. Лист frequency (частота GC - и AT - пар);
  6. Лист frequency_CDS (соотношение длин генов, кодирующих белки, ко всему геному);
  7. Лист 2 - mers(O/E 2 - меров, их количество, гистограмма);
  8. Лист 3 - mers (O/E 3 - меров, их количество, гистограмма);
  9. Лист codon_usage_table_test (количество и частота кодонов, кодирующих разные аминокислоты);
  10. Лист codon_usage_table (сводная таблица на основе листа codon_usage_table_test, где указано, сколькими кодонами кодируются разные аминокислоты и наибольшая и наименьшая частоты встречаемости кодонов);
  11. Лист proteins (гистограмма длин белков).

БЛАГОДАРНОСТИ

Выражаю благодарность преподавателям практической биоинформатики, которые помогали мне писать этот мини - обзор. А также своей семье и друзьям, поддерживающим меня в любых начинаниях.

СПИСОК ЛИТЕРАТУРЫ

  1. Brian J. Eddie and Thomas E. Hanson Chlorobaculum tepidum TLS Displays a Complex Transcriptional Response to Sulfide Addition// American Society for Microbiology Journals. – 2013. – 195(2). - c.399 – 408;
  2. Сайт NCBI – assembly Chlorobaculum tepidum TLS (green sulfur bacteria): Ссылка
  3. Страница с изначальными данными о последовательности генома и feature_table: Ссылка
  4. Путь к файлу Strukova_genome.fasta, в котором лежит геном бактерии: /home/students/y20/vstrukova2002/term1/block3/credits/Strukova_genome.fasta;
  5. Н.В. Равин, С.В. Шестаков Геном прокариот// Вавиловский журнал генетики и селекции. - 2013. - том 17 - №4/2 - с. 972 - 984;
  6. Г.А. Журавлёв Псевдоген // Большая российская энциклопедия, электронный ресурс: Ссылка
  7. Сайт с обозначениями IUPAC для нуклеотидов: Ссылка
  8. Таблица стандартного генетического кода: Ссылка
  9. Справочник химика, электронный ресурс: Ссылка
  10. А.Н. Огурцов Биохимия для студентов, основные данные про аминокислоты.