Дивакова Александра Антоновна. Студентка 1 курса МГУ Факультета Биоинженерии и Биоинформатики, Москва, Россия.
В работе выполнен анализ структурной организации генома Rhodoferax ferrireducens T118. Рассмотрены длины белков, интервалы и перекрывания между CDS, а также распределение генов по репликонам. Дополнительно классифицированы 429 белков по биологическим функциям с оценкой связи между длиной белка и его ролью. Показано, что геном R. ferrireducens компактный, а также что явная связь между длиной белка и функцией отсутствует.
Rhodoferax ferrireducens T118 — психротолерантная факультативно-анаэробная бактерия, принадлежащая к домену Bacteria, типу Pseudomonadota (Proteobacteria), классу Betaproteobacteria, порядку Burkholderiales, семейству Comamonadaceae, роду Rhodoferax. Штамм T118 (ATCC BAA-621 = DSM 15236) [1].
Её физиологические особенности включают способность окислять ацетат с восстановлением Fe(III), а также участие в генерации тока в микробных топливных элементах [2].
Геном R. ferrireducens полностью секвенирован: хромосома имеет длину ~4.7 Mbp и содержит более 4100 белок-кодирующих генов [3]. Присутствует плазмида (~257 kbp), кодирующая около 250 генов.
Данный мини-обзор посвящён анализу ключевых геномных и протеомных характеристик R. ferrireducens T118, включая распределение длин белков, организацию генома и возможные функциональные особенности.
Анализ распределения длин белков в протеоме R. ferrireducens T118 (Рисунок 1) показывает, что большинство белков находится в диапазоне 80–400 aa.
Такое распределение длин белков может быть приспособлением R. ferrireducens к экологической нише[4]: в холодных условиях бактерии выгодно иметь большее число коротких белков, так как на поддержание их работы требуется меньше энергии.
| seq_type | CDS | RNA | Всего генов |
|---|---|---|---|
| chromosome | 4337 | 53 | 4390 |
| plasmid | 270 | 1 | 271 |
Таблица 1 показывает, как распределены гены по репликонам, что отражает организацию генома и концентрацию функциональных элементов.
Анализ распределения генов в Rhodoferax ferrireducens T118 показал, что 4337 CDS и 53 RNA находятся на хромосоме, тогда как плазмида содержит лишь 270 CDS и 1 RNA. Такое соотношение отражает функциональную специализацию репликонов: хромосома концентрирует гены для метаболизма, синтеза белков и регуляции клеточных процессов, что критично для выживания в холодной среде и поддержания энергетической эффективности [5,6]. RNA-гены хромосомы обеспечивают транскрипцию и трансляцию, а единичная RNA на плазмиде участвует в контроле репликации или специализированных функций плазмидных генов [7].
Наличие отрицательных и нулевых значений указывает на перекрывающиеся CDS, что характерно для компактной организации бактериального генома. 1829 пар CDS имеют расстояние <0 (т.е. касаются концами или перекрываются), 999 пар — промежутки 0–100 нуклеотидов, 467 пар — 101–200 нуклеотидов, 204 пар — 201–300 нуклеотидов. Остальные интервалы встречаются реже: 78 пар (301–400), 48 пар (401–500), 31 пар (501–600), 8 пар (601–700), 5 пар (701–800), 7 пар (801–900), 2 пар (901–1000), и 30 пар — >1000 нуклеотидов (Рисунок 2)
Распределение расстояний между последовательными CDS на плюс-цепи подтверждает высокую компактность генома R. ferrireducens T118. Преобладание коротких интервалов 0–300 нт отражает высокую плотность генов, типичную для прокариот, где межгенные расстояния минимальны для эффективной организации CDS и регуляции транскрипции. [8] Редкие длинные промежутки (>600 нт) чаще соответствуют регуляторным некодирующим районам, которые увеличивают межгенные расстояния между CDS [9] Нулевые и отрицательные расстояния между CDS указывают на перекрывающиеся гены — распространённую архитектурную особенность бактериальных геномов, связанную с координацией регуляции и трансляционной связи соседних CDS [10, 11]
Анализ перекрывающихся CDS показал, что подавляющее большинство CDS не пересекаются с соседними (Рисунок 3. Гистограмма длин перекрывающихся длин на минус-цепи, Рисунок 4, Гистограмма длин перекрывающихся длин на плюс-цепи): на плюс-цепи 1783 из 2129 CDS (≈83,8%), на минус-цепи — 1814 из 2155 CDS (≈84,1%) преобладают: 292 CDS на плюс-цепи/285 на минус-цепи. Более длинные перекрытия встречаются значительно реже (11–50 нт: 47 и 50 CDS, 51–100 нт: 5 и 3 CDS, >100 нт: 2 и 3 CDS соответственно
Сравнение долей перекрывающихся генов на плюс- и минус-цепях показало практически идентичные значения (~16% от всех CDS). Это свидетельствует о симметричном распределении генов между цепями, что, в свою очередь, может отражать сбалансированное формирование транскрипционных единиц. Подобная симметрия может обеспечивать равномерность транскрипции и снижать возможные конфликты между репликацией и транскрипцией.
Цель задания: Проверить, существует ли связь между длинной белка и выполняемой им функцией
Классификация 429 белков по функциональным группам на основе их длины (Рисунок 5, Рисунок 6, Рисунок 7) выявила тенденцию: Короткие белки преимущественно относятся к трансляционным и транспортным. Средние по длине белки доминируют в метаболических, трансляционных и транспортных функциях. Длинные белки чаще задействованы в метаболических функциях.
Повторяющиеся значения для групп не дают достоверной информации, чтобы отследить зависимость длины от функции или наоборот. современные исследования свидетельствуют, что длина белка не является прямым показателем его функциональной принадлежности или «важности» функции. Распределение длины белков относительно устойчиво во всех доменах жизни и определяется скорее структурными, эволюционными и доменными ограничениями, чем принадлежностью к конкретной биологической функции [12]
Отдельная благодарность моему другу, который помог с Python-кодом для оригинальной задачи.