Работа направлена на краткое изучение генома и протеома бактерии Acidaminococcus intestini - бактерии, являющейся частью нормальной микрофлоры человека. С помощью электронный таблиц и программирования были проанализированы средняя длина белков, старт- и стоп-кодоны, были найдены точки начала и конца репликации.
Геном, старт-кодон, протеом, длина белка, ГЦ-перекос
Acidaminococcus intestini - грамотрицательная анаэробная бактерия, эндосимбионт человека [1]. На данный момент ее относят к Firmicutes; Negativicutes; Acidaminococcaceae; Acidaminococcus, но ее систематическое положение многократно пересматривалось [2]. Впервые эта бактерия была выделена в 2007 из перианального абсцесса больного диабетом [2]. Геном Acidaminococcus intestini состоит из 2,488,745 пар нуклеотидов и включает 2404 гена белков, 61 РНК ген [3]. Их родовое название - Acidaminococcus - отражает особенность их метаболизма, а именно то, что бактерии могут использовать аминокислоты в качестве единственного источника энергии (Acidaminococcus - “аминокислотные кокки”) [4]. Несмотря на то, что сама Acidaminococcus intestini не вызывает никаких заболеваний, она, вероятно, может передавать патогенным бактериям генетический материал, обеспечивающий их резистентность к антибиотикам, и таким образом "принять участие" в полимикробной инфекции [1]. Существует мнение, что группа Negativicutes пошла по другому эволюционному пути, нежели другие грамотрицательные бактерии, благодаря этому они представляют интерес для изучения[9].
Геном и протеом рисунка 1 и 2, таблицы 3 использовались электронных таблиц Google Sheets [6], а данные, по которым они строились, были получены в результате работы программ start-codon, GTGstart, stop-codon, GC-skew, доступных по ссылке [7]. результаты и обсуждение
Геном бактерии Acidaminococcus intestini состоит единственной хромосом, длина которой составляет 2 488 745 пар нуклеотидов [3]
Старт-кодон
С помощью программы start-codon, написанной на языке Python, я проанализировала кодирующие последовательности и рассмотрела, какие старт-кодоны встречаются у этой бактерии.
Ниже приведены старт-кодоны и количество раз, сколько они встретились в геноме.
AAA | 2 | ATT | 5 | GCT | 1 |
---|---|---|---|---|---|
AAC | 1 | CAG | 3 | GTG | 154 |
ACC | 1 | CCT | 2 | TAC | 1 |
AGG | 1 | CTG | 3 | TCC | 1 |
ATC | 2 | GAA | 1 | TGG | 1 |
ATG | 1786 | GCA | 1 | TTG | 72 |
Таблица 1. Старт-кодоны и их частоты
Если нестандартные старт-кодоны, встреченные всего по одному разу, можно объяснить случайными мутациями, то GTG привлек мое внимание. Его частота - 154 - составляет 8,6% от частоты “традиционного” ATG. Чтобы узнать, какие именно последовательности начинаются со старт-кодона GTG, на языке Python я написала код GTGstart, который выводит описание нужных последовательностей. Я предположила, что GTG начинает последовательности псевдогенов (“сломанных” генов), которые не транскрибируются в клетке.
Результаты работы программы представлены в файле [8].
Оказалось, что псевдогены кодируются только 1 последовательностью, гипотетический возможные белки еще 25, а среди остальный встречаются даже “гены домашнего хозяйства”. Например, именно с GTG начинается последовательность рибосомального белка:
lcl|NZ_LR698962.1_cds_WP_016459745.1_1232 [gene=rpsP] [locus_tag=FXY56_RS06335] [protein=30S ribosomal protein S16]
А также субъединицу дельта:
lcl|NZ_LR698962.1_cds_WP_014128191.1_1105 [gene=holA] [locus_tag=FXY56_RS05695] [protein=DNA polymerase III subunit delta]
Это указывает на то, что замена одного пуринового основания (аденина) на другое (гуанин) в старт-кодоне не нарушает работу транскрипции.
Стоп-кодоны
С помощью программы stop-codon я узнала частоту стоп-кодонов в геноме:
кодон | частота (количество последовательностей) | процентное соотношение |
---|---|---|
TGA | 713 | 35,24% |
TAA | 1088 | 45,37% |
TAG | 222 | 14,49% |
Таблица 2. Частота стоп-кодонов
Заметен ощутимый “перекос” в сторону ТАА, но я не смогла найти ему объяснение.
GC - перекос
Чтобы найти точки начала и конца репликации я написала код (GC-skew), вычисляющий суммарный GC-перекос. Результаты в виде таблицы сохранен в файле [9].
Как известно, точке начала репликации соответствует минимум суммарного GC-перекоса, точке конца - максимум. Для более наглядного представления я использовала электронные таблицы, с помощью которых построила график.
Рисунок 1. График зависимости суммарного перекоса от индекса
Как видно из рисунка 1, началу репликации приблизительно соответствует индекс 1 625 000 , концу - 445 000.
ПРОТЕОМ
Средние длины белков
Чтобы найти распределение длин белков я воспользовалась таблицей CDS и средствами Google Sheets.
Рисунок 2. Гистограмма длин белков
Из рисунка 2 видно, что большая часть белков содержит от 120 до 420 аминокислот, а в диапазоне 330-360 заметен “провал”. Минимальная длина белка составляет 37 аминокислот для рибосомального белка (50S ribosomal protein L36), максимальная - 1706 (S-layer homology domain-containing protein).
Распределение белков
С помощью таблицы и электронных таблиц было найдено распределение белков по + и - цепям.
белков на + цепи | 1010 |
---|---|
белков на - цепи | 1007 |
Таблица 3. Распределение белков по + и - цепям.
Вероятность получить такое распределение случайно составляет 96,45%, что не позволяет нам говорить о закономерности
[1] "Complete genome sequence of Acidaminococcus intestini RYC-MR95, a Gram-negative bacterium from the phylum Firmicutes." D'Auria G., Galan J.C., Rodriguez- https://www.uniprot.org/proteomes/UP000007093
[2]Rogosa M. 1969. Acidaminococcus gen. n., Acidaminococcus fermentans sp.n., anaerobic Gram-negative diplococcus using amino acids as the sole energy source for growth. J. Bacteriol. 98: 756–766
[3]https://www.genome.jp/kegg-bin/show_organism?org=ain
[4] Classification of Genera AC entry in LPSN; Euzéby, J.P. (1997). "List of Bacterial Names with Standing in Nomenclature: a folder available on the Internet". International Journal of Systematic and Evolutionary Microbiology. 47 (2): 590–2.
[5]https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/902/381/715/GCF_902381715.1_UHGG_MGYG-HGUT-01440/
[7] https://colab.research.google.com/drive/1HDOzxPINKuK7qWmQOadgihpqqQ2HUtEW#scrollTo=k9lovCzqXupfhttps://colab.research.google.com/drive/1HDOzxPINKuK7qWmQOadgihpqqQ2HUtEW#scrollTo=NfirbPTQKqm9
[8] https://docs.google.com/document/d/1PjiIfenwd0zJ0MGgD796VhOgtP90Ta9YdmvTFyn2j7I/edit
[9] Gupta R. S. 2011. Origin of diderm (Gram-negative) bacteria: antibiotic selection pressure rather than endosymbiosis likely led to the evolution of bacterial cells with two membranes. Antonie Van Leeuwenhoek 100: 171–182