В ходе работы было получено: встречаемости старт и стоп кодонов в кодирующих последовательностях, расположение ориджина репликации, определена средняя длина белков в протеоме, встречаемость аминокислот в протеоме.
Ключевые слова: start codon, stop codon, GC-skew, protein length
Выбрал для анализа геном Clostridium autoethanogenum. Это один из немногих видов бактерий, который способен на ферментацию синтез-газа (процесс, в ходе которого смесь водорода, угарного газа и углекислого газа используется как источник углерода и энергии) [1]. Эта способность делает бактерий интересными с точки зрения биотехнологии, они используются для получения топлива и химических соединений из отработанного углерода [2]. Анализ и работа с геномом Clostridium autoethanogenum поможет найти новые способы их применения или повысить эффективность уже имеющихся. Так как эта бактерия промышленно значимая, исследований на эту тему можно найти достаточно. Есть связанные с секвенированием, аннотированием, редактированием её генома, с метаболической инженерией. Поэтому задачей будет скорее найти что-то новое для себя, в особенности, какие существуют методы исследования генома и как я могу их применять.
Геном и протеом был взят из [3]. Программы, использующиеся в работе были написаны самостоятельно, их можно найти в папке [4]. График и гистограмма сделаны с помощью Google sheets.
1) Исследование частоты встречаемости старт- и стоп-кодонов было проведено с помощью программ StartCodonFasta и StopCodonFasta. Результаты отражены в следующих двух таблицах. Помимо стандартного ATG, встретились альтернативные старт кодоны, которые обнаруживаются у прокариот (GTG, TTG, ATT), а также совсем необычные. Гены, содержащие эти необычные для начала последовательности кодоны, судя по описанию, являются псевдогенами, они не транскрибируется, поэтому кодоны являются лишь результатом случайной мутации изначального старт кодона (остается необъяснимым только почему ATA встретился целых 40 раз, гены, начинающиеся с него, не являются псевдогенами, а кодируемые белки выполняют разные функции в разных местах клетки, расположены в разных частях генома).
Start codon | Occurrence |
---|---|
ATG | 3174 |
TTG | 421 |
GTG | 230 |
ATA | 40 |
ATC | 5 |
CTG | 5 |
GAA | 2 |
AAA | 1 |
AAT | 1 | CCT | 1 |
CGC | 1 |
GAT | 1 |
GGT | 1 |
GTA | 1 |
GTT | 1 |
Stop codon | Occurrence |
---|---|
TAA | 2494 |
TAG | 928 |
TGA | 475 |
2) Для определения GC скоса в геноме бактерии использовалась программа GC-skew, шаг определения был длиной 1000 нуклеотидов, окно — 100000 нуклеотидов, затем полученные данные были оформлены в график [5]. Минимуму Cumulative GC-skew соответствует ориджин репликации, выяснили, что в геноме бактерии он расположен примерно в окне 2.160.000 – 2.219.000 нуклеотидов
1) Определил среднюю длину белков используя электронные таблицы [6], получил следующее распределение. Средняя длина белков получилась около 200-300 аминокислот, что согласуется с одним из исследований [7].
2) Еще одной темой является исследование встречаемости аминокислот в протеоме, для этого использовалась программа ProteinFasta. Самыми часто встречающимися аминокислотами оказались изолейцин, лейцин и лизин. Нельзя сказать точно, что частота встречаемости аминокислоты в геноме напрямую связана с ее количеством в живой клетке, в данной работе не исследуется уровень экспрессии, но если предположить, что это так, то, возможно, большое количество изолейцина, лейцина и лизина связано с тем, что эти гидрофобные аминокислоты используются для заякоривания мембранных белков. Самой редкой аминокислотой являются триптофан (из-за сложного синтеза?)
Start codon | Occurrence |
---|---|
A | 69818 |
C | 16814 |
D | 65799 |
E | 79610 |
F | 52635 |
G | 78591 |
H | 16257 |
K | 112302 |
L | 106149 | M | 33000 |
N | 74966 |
P | 35230 |
Q | 29781 |
R | 38994 |
S | 81804 |
T | 59754 |
V | 80852 |
W | 8388 |
Y | 48946 |
Благодарю преподавателей факультета