× Писал мини-обзор на русском, в скором времени переведу и его
Chekalin D.D.

Overview of the genome and proteome of Clostridium autoethanogenum

ABSTRACT

В ходе работы было получено: встречаемости старт и стоп кодонов в кодирующих последовательностях, расположение ориджина репликации, определена средняя длина белков в протеоме, встречаемость аминокислот в протеоме.

Ключевые слова: start codon, stop codon, GC-skew, protein length

INTRODUCTION

Выбрал для анализа геном Clostridium autoethanogenum. Это один из немногих видов бактерий, который способен на ферментацию синтез-газа (процесс, в ходе которого смесь водорода, угарного газа и углекислого газа используется как источник углерода и энергии) [1]. Эта способность делает бактерий интересными с точки зрения биотехнологии, они используются для получения топлива и химических соединений из отработанного углерода [2]. Анализ и работа с геномом Clostridium autoethanogenum поможет найти новые способы их применения или повысить эффективность уже имеющихся. Так как эта бактерия промышленно значимая, исследований на эту тему можно найти достаточно. Есть связанные с секвенированием, аннотированием, редактированием её генома, с метаболической инженерией. Поэтому задачей будет скорее найти что-то новое для себя, в особенности, какие существуют методы исследования генома и как я могу их применять.

METHODS

Геном и протеом был взят из [3]. Программы, использующиеся в работе были написаны самостоятельно, их можно найти в папке [4]. График и гистограмма сделаны с помощью Google sheets.

RESULTS AND DISCUSSION

Про геном

1) Исследование частоты встречаемости старт- и стоп-кодонов было проведено с помощью программ StartCodonFasta и StopCodonFasta. Результаты отражены в следующих двух таблицах. Помимо стандартного ATG, встретились альтернативные старт кодоны, которые обнаруживаются у прокариот (GTG, TTG, ATT), а также совсем необычные. Гены, содержащие эти необычные для начала последовательности кодоны, судя по описанию, являются псевдогенами, они не транскрибируется, поэтому кодоны являются лишь результатом случайной мутации изначального старт кодона (остается необъяснимым только почему ATA встретился целых 40 раз, гены, начинающиеся с него, не являются псевдогенами, а кодируемые белки выполняют разные функции в разных местах клетки, расположены в разных частях генома).

Table. 1 Occurrence of start codons in coding sequences
Start codon Occurrence
ATG 3174
TTG 421
GTG 230
ATA 40
ATC 5
CTG 5
GAA 2
AAA 1
AAT 1
CCT 1
CGC 1
GAT 1
GGT 1
GTA 1
GTT 1
Table. 2 Occurrence of stop codons in coding sequences
Stop codon Occurrence
TAA 2494
TAG 928
TGA 475

2) Для определения GC скоса в геноме бактерии использовалась программа GC-skew, шаг определения был длиной 1000 нуклеотидов, окно — 100000 нуклеотидов, затем полученные данные были оформлены в график [5]. Минимуму Cumulative GC-skew соответствует ориджин репликации, выяснили, что в геноме бактерии он расположен примерно в окне 2.160.000 – 2.219.000 нуклеотидов

Schedule 1. Cumulative GC skew C. autoethanogenum
Про протеом

1) Определил среднюю длину белков используя электронные таблицы [6], получил следующее распределение. Средняя длина белков получилась около 200-300 аминокислот, что согласуется с одним из исследований [7].

Schedule 2. Product length histogram C. autoethanogenum

2) Еще одной темой является исследование встречаемости аминокислот в протеоме, для этого использовалась программа ProteinFasta. Самыми часто встречающимися аминокислотами оказались изолейцин, лейцин и лизин. Нельзя сказать точно, что частота встречаемости аминокислоты в геноме напрямую связана с ее количеством в живой клетке, в данной работе не исследуется уровень экспрессии, но если предположить, что это так, то, возможно, большое количество изолейцина, лейцина и лизина связано с тем, что эти гидрофобные аминокислоты используются для заякоривания мембранных белков. Самой редкой аминокислотой являются триптофан (из-за сложного синтеза?)

Table 3. Occurrence of aminoacids in protein C. autoethanogenum
Start codon Occurrence
A 69818
C 16814
D 65799
E 79610
F 52635
G 78591
H 16257
K 112302
L 106149
M 33000
N 74966
P 35230
Q 29781
R 38994
S 81804
T 59754
V 80852
W 8388
Y 48946

ACKNOWLEDGEMENTS

Благодарю преподавателей факультета

REFERENCES

1. https://en.wikipedia.org/w/index.php?title=Clostridium_autoethanogenum&oldid=1008636935
2. https://www.researchgate.net/publication/312560413_Metabolic_Engineering_of_Clostridium_autoethanogenum_for_
Selective_Alcohol_Production

3. https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/001/484/725/GCF_001484725.1_ASM148472v1/
4. https://drive.google.com/drive/folders/1E7PJAO1FxX-OSfbMmEvRK0mDr_K4P0wR?usp=sharing
5. https://docs.google.com/spreadsheets/d/1ju1p972q_eA3fHJOo02wwwvoTu9Ttq7RTsnxN_kw_XA/edit?usp=sharing
6. https://docs.google.com/spreadsheets/d/1oakOgNENVrhHEhluIrfO6NEKn33MR8v1xTUVdgXF_SA/edit?usp=sharing
7. https://www.researchgate.net/publication/7790262_Protein_length_in_eukaryotic_and_prokaryotic_proteomes