Обзор генома и протеома Mycobacterium anyangense Kim et al. 2015

Латорцева Д.Д.

Факультет биоинженерии и биоинформатики МГУ им. М.В. Ломоносова

Резюме

Проведен анализ генома и протеома Mycobacterium anyangense Kim et al. 2015. Исследованы длина хромосомы и ее нуклеотидный состав, покрытие генами, типы этих генов, с более подробным описанием, кодирующих субъединицы рибосом и транспортные РНК. Были выдвинуты гипотезы о встречаемости последовательностей длиной три нуклеотида в геноме и описан кодирующий потенциал.

Введение

Mycobacterium anyangense (также известна как Mycolicibacterium anyangense) - вид мезофильных бактерий, впервые обнаруженных в крови крупного рогатого скота в Корее в 2015 году[1]. Бактерии представлены либо в виде изогнутых палочек, либо образует желтую или оранжевую колонию[1]. Mycobacterium anyangense не вызывает туберкулез[1]. Род Mycobacterium особен строением клеточной стенки. Она содержит большое количество специфических липидов (миколовых кислот, сульфолипидов, например), обеспечивающих устойчивость в кислотах, спиртах и щелочах[2]. Также липиды обуславливают высокую температуру плавления клеточной стенки[3]. Эти свойства делают бактерий устойчивыми ко многим антибиотикам и медицинским препаратам

Геном M. anyangense представлен одной хромосомой. Ее длина составляет 5,696,751 п.н и включает в себя 5379 генов, 5274 из них кодируют белки. [4]

Результаты и обсуждение

Длина генома

Геном M. anyangense представлен одной хромосомой. Ее длина составляет 5,696,751 п.н и включает в себя 5379 генов.

Рассмотрим подробнее структуру генома (табл. 1). Было выявлено, что 98% генов кодируют белки. Примерно один процент генома (53 гена) кодирует РНК, связанные с работой рибосом: найдена одна tmRNA (участвует в механизмах прекращения трансляции)[5], также 6 рибосомальных РНК, и 46 транспортных РНК, подносящих аминокислоты к рибосоме. Около 0,93 процентов пришлось на псевдогены (гены, утратившие свою функцию), по 0,04 процента от генома занимают гены рибонуклеазы РНК (RNase_P_RNA) и гены структуры, участвующей в распознавании РНК (SRP_RNA).

Таблица 1. Количество различных типов генов в геноме Mycobacterium anyangense
тип гена количество процент от всех генов цепь ДНК
прямая обратная
protein_coding 5274 98,01 2703 2571
pseudogene 50 0,93 30 20
tmRNA 1 0,02 1 0
tRNA 46 0,85 21 25
rRNA 6 0,11 0 6
RNase_P_RNA 2 0,04 0 2
SRP_RNA 2 0,04 0 2
сумма генов 5381 100 2755 2626

Исходные данные находятся в сопроводительных материалах на листе “genes”, счет отражен на листе “gene_type”.

Расположение генов по прямым и обратным цепям

Перед началом исследования было предположение, что количество генов на одной цепи равно числу генов на другой. Анализ расположения генов по двум цепям ДНК показал, что на плюс цепи лишь на 2,4 % больше генов, чем на минус цепи (табл. 1). Это подтверждает гипотезу о равновероятности расположения генов по цепям.

Исходные данные находятся в сопроводительных материалах на листе “genes”, счёт отражен на листе “gene_type”.

Исследование количества генов тРНК

Иллюстрация

На основе данных, полученных при исследовании типов генов в геноме бактерии Mycobacterium anyangense интерес вызвало, что наблюдаемое количество генов тРНК (46) меньше, чем число возможных кодонов (61) (график 1).

При этом для всех аминокислот есть своя тРНК. Для метионина есть даже две, хотя он кодируется 1 кодоном - это происходит, потому что кодон АУГ - может быть использован в качестве старт-кодона, а может быть в пептиде как обычная аминокислота. И для двух этих случаев используется разные тРНК.[6] Других тРНК либо столько же, сколько и кодонов, либо меньше, что отклоняет гипотезу о возможных дупликациях генов тРНК. Имеющиеся результаты говорят о том, что у M. anyangense есть часто используемые кодоны, а есть те, которые совсем не востребованы. Дальнейшее исследование тРНК и кодонов бактерии предполагает учесть wobble - гипотезу[7]: тогда, предположительно, одна и та же тРНК сможет работать с несколькими кодонами.

Исходные данные находятся в сопроводительных материалах на листе “genes”, из которого на отдельный лист ‘tRNA_table” помещены данные только о тРНК, подсчет и анализ приведен на листе “tRNA”.

Кодирующий потенциал

На основе данных о кодирующем потенциале триплетов в бактерии была исследована разница между максимальной и минимальной частотой кодонов (выражена в процентах) (график 6). На графике видно, что есть аминокислоты, кодируемые только 1 кодоном - длина столбика равна 0. Чем выше столбец, тем сильнее разница между минимальным и максимальным значение. Интересно, что для некоторых аминокислот характерно преобладание определенного триплета, например для L, F, G.

Символом “*” на графике обозначены стоп-кодоны TGA, TAA, TAG. Информация о том, что именно эти триплеты останавливают трансляцию понадобиться в анализе частот k-меров длины 3.

Исследование кодирующего потенциала также поможет в ответе на предыдущий вопрос о количестве тРНК. Планируется сопоставить тРНК и частые кодоны для аминокислот. Но это даст ответ только на половину вопроса. Основной вопрос, который не входит в первоначальную задачу мини-обзора, понять от чего может зависеть количество генов тРНК в геноме: может ли их быть сильно меньше или сильно больше.

Исходные данные находятся в сопроводительных материалах на листе “CDS_table”, подсчёт и анализ произведены на листе ‘CDS”.

ГРАФИК 6

Правило Чаргаффа и GC состав

В соответствии со вторым Чаргаффа, число нуклеотидов А примерно равно числу нуклеотидов Т, также число Г примерно соответствует С (таблица 2). Для бактерии характерен высокий GC состав, как и для многих представителей этого рода[8].

Исходные данные находятся в сопроводительных материалах на листе “nucleotide_count”.

Иллюстрация

Частота k-меров длины 3

Геном был разбит на короткие последовательности длиной в 3 нуклеотида (k-меры длиной 3), оказалось, что они встречаются не равновероятно. Для оценки представленности последовательностей в геноме использовалось соотношение ожидаемых значений представленности и экспериментальных данных (O/E соотношение). Наиболее частые k-меры были ТАС, GTA, GAA, TTC, AAG, CTT. Самые низко встречаемые - TAA, TTA (график 2).

Некоторые тринуклеотиды обладают особой функцией в геноме, то есть их распределение в геноме не независимо. Высокую частоту (график 4) встречаемости TAC и GTA можно объяснить так: 94% генома кодируют белки,транслирующиеся с мРНК, аминокислотная последовательность начинается со старт-кодона АУГ, который на одной цепи записан как GTA, а на другой как TAC. Таким же образом объясняется низкое (график 5) соотношение для TTA, TAG (триплеты TTA, ACT - стоп-кодоны). Интересно, что тринуклеотид ТГА (и комплементарный ему ACT), который может выполнять функцию стоп-кодона представлен в соответствии с ожидаемой по подсчетам частотой (график 3). Представленность других тринуклеотидов может объясняется иными важными участками для генома бактерии.

Исходные данные находятся в сопроводительных материалах на листе “kmer3”.

Рибосомальные белки

В геноме бактерии содержится 35 генов 50S рибосомальных белков и 23 гена 30s рибосомальных белков разных типов (таблица 3). Белки 50s входят в состав большой субъединицы рибосом, 30s - в состав маленькой.[9] Был также обнаружен ген белка (ribosome silencing factor[10]), мешающего связыванию 30s и 50s белков, тем самым не давая сформироваться рибосоме для начала трансляции.

Исходные данные находятся в сопроводительных материалах на листе “genes”, информация только о рибосомальных белках скопирована на лист “ribosomal prot”.

Иллюстрация

Заключение

Был произведен анализ генома и протеома Mycobacterium anyangense Kim et al. 2015, в ходе которого подтвердились сформулированные гипотезы и появились новые идеи. В будущем планируется рассмотреть геном подробнее, применив другие методы.

Материалы и методы

Для работы с электронной таблицей были использованы следующие методы:

  1. импортирование файла в google таблицы
  2. преобразование файла txt в таблицу xlsx
  3. создание и применение фильтра по строкам электронной таблицы
  4. сохранение отфильтрованной таблицы на дополнительном листе электронной таблицы
  5. использование функции ВПР для объединения значений двух таблиц по столбцу
  6. приведение таблицы в удобный для просмотра вид: удаление повторяющихся строк, изменение ширины столбцов, закрепление строки с названием колонок.
  7. работа с формулами электронной таблицы. Используемые функции: СРЗНАЧ, СЧЁТЕСЛИМН, MIN, MINIFS, MAXIFS, ROUND.
  8. использованы команды wordcount, geecee, cbcalc,cusp.

- сопроводительные материалы

- нуклеотидная последовательность генома в fasta формате

- кодирующие последовательности всех генов.

Таблица 1. Использовался фильтр и функция СЧЁТЕСЛИМН для подсчёта числа типов генов, расположения по цепи. Для вычисления процентного соотношения - функции СУММ, деление, ROUND. Latortseva_supple_research лист “gene_type”.

Таблица 2. Использовалась программа wordcount -wordsize 1, подсчитавшая сколько нуклеотидов каждого типа в геноме (подсчёт велся на основе Latortseva_genome.fasta). Процент GC был вычислен как сумма процентного содержания нуклеотидов G и С. Latortseva_supple_research лист “nucleotide_count”.

Таблица 3. С помощью фильтра по столбцам в ЭТ была получена таблица только с теми генами, что кодируют рибосомальные белки. Latortseva_supple_research лист “ribosomal_prot”.

График 1. С помощью фильтрации таблиц (по значению тип гена - тРНК), разделения столбцов по символу (для вытаскивания из названия РНК типа аминокислоты, которую она переносит), подсчета сколько раз встречается название аминокислоты в столбце с типов аминокислоты функцией СЧЁТЕСЛИМН, а также сопоставления полученных данных количеству кодонов для аминокислоты, был получен этот график. Latortseva_supple_research лист “tRNA_table” и лист “tRNA”.

График 2. При помощи программы cusp подсчитаны O/E соотношение для каждого k-мера на основе нуклеотидной последовательности в Latortseva_genome.fasta, на основе которого построен график. О/E соотношение - отношение ожидаемой величины к полученной экспериментально.

График 2. При помощи программы cusp подсчитаны O/E соотношение для каждого k-мера на основе нуклеотидной последовательности в Latortseva_genome.fasta, на основе которого построен график. О/E соотношение - отношение ожидаемой величины к полученной экспериментально.

Графики 3,4,5 - увеличенные части графика 2.Latortseva_supple_research лист “CDS”.

График 6. При помощи программы cusp подсчитаны частоты кодонов каждой аминокислоты. Далее из максимальной частоты кодонов была вычтена минимальна и построен график. Latortseva_supple_research лист “kmer3”.

Список литературы

1 - Kim BJ, Kim JM, Kim BR, et al. Mycobacterium anyangense sp. nov., a rapidly growing species isolated from blood of Korean native cattle, Hanwoo (Bos taurus coreanae). Int J Syst Evol Microbiol 2015; 65:2277-2285.

2 - Lambert PA. Cellular impermeability and uptake of biocides and antibiotics in Gram‐positive bacteria and mycobacteria. Appl Microbiol. 2002;92 Suppl:46S-54S.

3 - Jun Liu, Clifton E. Barry III, Gurdyal S. Besra and Hiroshi Nikaido. Mycolic Acid Structure Determines the Fluidity of the Mycobacterial Cell Wall. J. Biol. Chem. 1996, 271:29545-29551.

4 - Директория с данными о геноме Mycolicibacterium anyangense на сайте NCBI https://www.ncbi.nlm.nih.gov/assembly/GCA_010731855.1

5 - База данных NCBI, подробное объяснение работы tmRNA https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3358797/

6 - Ashwin Govindan, et.all. Sustenance of Escherichia coli on a single tRNAMet, Nucleic Acids Research, Volume 46, Issue 21, 30 November 2018, Pages 11566–11574.

7 - Mangang SU, Lyngdoh RH. Wobble base-pairing in codon-anticodon interactions: a theoretical modelling study. Indian J Biochem Biophys. 2001 Feb-Apr;38(1-2):115-9.

8 - Wayne, L. G., and W. M. Gross. 1968. Base composition of deoxyribonucleic acid isolated from mycobacteria. J. Bacteriol. 96:1915-1919.

9 - Nomura M. 1970. Bacterial ribosome. Bacteriol Rev 34:228–277.

10 - Li X., et. all. Structure of ribosomal silencing factor bound to Mycobacterium tuberculosis ribosome. Structure. 2015;23:1858–1865.

Моя почта

Пишите письма сюда сюда или сюда