Автор: Кирцова Ксения Михайловна1
1Факультет Биоинженерии и биоинформатики Московского государственного университета имени М. В. Ломоносова, Москва, Россия
Контакты: kskirtsova@gmail.com
Аннотация: В данном мини-обзоре приведено качественное и количественное описание генома и протеома бактерии Vescimonas coprocola с использованием функционала электронных таблиц и программирования на языке Python.
Vescimonas coprocola - грамотрицательная облигатно-анаэробная неспорообразующая неподвижная палочка, которая была выделена из фекалий взрослого японца с раком желудка. Точечные дискообразные бело-серые полупрозрачные колонии на анаэробной среде Gifu; оптимальная температура роста колоний 37℃ [1].
Информация о геноме и протеоме бактерии была взята из базы данных NCBI Genome [4]. Обработка данных проводилась с помощью электронных таблиц Google sheets и языка программирования Python 3.9. При обработке были использованы только строки таблицы особенностей генома, у которых в колонке “features” стоит “CDS” (повторяющиеся и не подходящие под условия значения были удалены с помощью фильтра).
В пункте 3.1 с помощью функций в Google sheets на основе таблицы с данными о геноме было рассчитано распределение длин белков и была построена гистограмма числа аминокислотных остатков в белках бактерии.
В пункте 3.2 была написана программа на языке Python 3.9, которая с помощью обработки файла с геномом бактерии определила все старт-кодоны в кодирующих последовательностях (CDS) и вычислила, сколько раз встречается каждый старт-кодон.
Геном Vescimonas Coprocola кодирует 2375 белков. Из них 2371 синтезируются с хромосом, а 4 - с плазмиды. Белки имеют длину от 37 до 2859 аминокислот. Самый длинный белок - YDG domain-containing protein, самый короткий - 50S ribosomal protein L36. Среднее значение длин белков - 307.47 аминокислоты. Исходя из гистограммы, в геноме преобладают белки длиной 100-300 аминокислот. Эта длина белков является нормальной для бактерий.
Старт-кодон или инициаторный кодон - первый кодон матричной РНК, c которого начинается трансляция белка в рибосоме. У бактерий старт-кодон всегда кодирует модифицированный метионин (N-формилметионин). Старт-кодону предшествует 5′-нетранслируемая область (5'-UTR). В 5'-UTR бактерий локализована последовательность Шайна-Дальгарно (AGGAGG), которая служит для связывания рибосомы и отделена спейсером от старт-кодона [5].
Подавляющее большинство последовательностей Vescimonas coprocola начинается со старт-кодона ATG в смысловой цепи ДНК (AUG в мРНК), что неудивительно, так как этот триплет является наиболее распространенным стартовым кодоном. Также встречается существенное число альтернативных старт-кодонов GTG (GUG) и TTG (UUG). Альтернативные старт-кодоны обычно кодируют метионин, когда они находятся в начале белка (даже если, находясь в остальных местах последовательности, они кодируют другую аминокислоту). Так в случае, если кодоны GTG и TTG находятся внутри кодирующей последовательности, они кодируют аминокислоты валин и лейцин соответственно. Если же какой-либо из этих кодонов расположен в начале последовательности, он кодирует стартовый метионин. Это происходит потому, что для инициации трансляции используется специальная транспортная РНК. Антикодоном инициирующей аминоацил-тРНК всегда является CAU, он полностью комплементарен основному старт-кодону AUG и частично комплементарен более редким кодонам [6].
Кроме частично комплементарных GTG и TTG в исключительных случаях в клетках бактерий инициация может начинаться с других триплетов. Также при секвенировании могла возникнуть погрешность. Поэтому в качестве старт-кодонов у бактерии Vescimonas coprocola встречаются триплеты ДНК ATC, CTG, ATA, ATT, CAG, GAC, AAG, ACC, CAT, CGT, CTT, GCT, GGT, TCT, TTA. Эти так называемые «слабые» кодоны могут выполнять свою функцию в комбинации с сильными последовательностями Шайна-Дальгарно или другими структурными элементами, способствующими инициации [6].
ATG | 2117 |
GTG | 161 |
TTG | 102 |
ATC | 16 |
CTG | 9 |
ATA | 5 |
ATT | 3 |
CAG | 2 |
GAC | 2 |
AAG | 1 |
ACC | 1 |
CAT | 1 |
CGT | 1 |
CTT | 1 |
GCT | 1 |
GGT | 1 |
TCT | 1 |
TTA | 1 |
Табл. 1. Распределение количеств старт-кодонов