Семестр 1. Комплексный анализ бактерий Bacillus subtilis, Peptoclostridium acidaminophilum, Ureaplasma urealyticum parvum

1. Задание 1. Анализ старт-кодонов

Для анализа был подготовлен скрипт на Python (https://cloud.mail.ru/public/82w2/TmgU85w37).

Таблица 1. Сводная информация по B.subtilis, P.acidaminophilum, U.urealyticum parvum

ПоказательBacillus subtilisPeptoclostridium acidaminophilumUreaplasma urealyticum parvum
Всего последовательностей43382144617
Всего псевдогенов41167
Доля псевдогенов (%)0,950,751,13
Основные старт-кодоны: ATG3333 (76.8%)1682 (78.5%)560 (90.8%)
Основные старт-кодоны: GTG397 (9.2%)180 (8.4%)22 (3.6%)
Основные старт-кодоны: TTG562 (13.0%)249 (11.6%)27 (4.4%)
Другие старт-кодоны46 (1.1%)33 (1.5%)8 (1.3%)
Уникальные кодоны (1 раз)1162
Псевдогены среди уникальных630
Доля псевдогенов среди уникальных (%)54,55500

Таблица 2. Старт-кодоны в бактериях

Старт кодонBacillus subtilisPeptoclostridium acidaminophilumUreaplasma urealyticum parvumВсего
ATG333316825605575
TTG56224927838
GTG39718022599
ATT149225
ATC75113
ATA09211
CTG6107
TTA1225
CTA2204
GAA2103
AAG1102
AGC1102
CAA2002
GGT1102
TAT1012
TTT2002
ACA1001
AGA1001
CAT1001
CGG1001
GAT1001
GTT1001
TAC0101

1.1 Интерпретация данных по старт-кодонам

Доминирование ATG с вариацией по видам: Во всех исследованных бактериях ATG является преобладающим старт-кодоном, однако его доля существенно варьирует — от 76.8% у Bacillus subtilis до 90.8% у Ureaplasma urealyticum parvum, что отражает различия в эволюционных стратегиях и сложности геномной организации. Наряду с ATG стабильно присутствуют два основных альтернативных старт-кодона: TTG (4.4-13.0%) и GTG (3.6-9.2%), которые, вероятно, выполняют регуляторные функции, модулируя уровень экспрессии соответствующих генов.

Артефактное происхождение редких старт-кодонов: Большинство экзотических старт-кодонов (ATT, ATC, CTG, AAG, GTT и др.), особенно встречающихся только один раз, имеют прямое отношение к псевдогенам или ошибкам аннотации. У Bacillus subtilis 54.5% уникальных кодонов (6 из 11), а у Peptoclostridium acidaminophilum 50% (3 из 6) являются псевдогенами с маркером [pseudo=true], что указывает на их артефактный характер.

1.2 Причины использования не только ATG старт-кодонов

  1. Регуляция уровня экспрессии (Разные старт-кодоны обеспечивают разную эффективность инициации трансляции).
  2. Эволюционные адаптации (Разные виды бактерий имеют различное эволюционное происхождение).
  3. Особенности рибосомного связывания (Эффективность связывания с рибосомой зависит от контекста старт-кодона).
  4. Биохимические особенности (Модификации тРНК могут влиять на распознавание кодонов).
  5. Геномная экономия и эволюционные ограничения (Использование существующих последовательностей для инициации трансляции).
  6. Ошибки аннотации (Ошибки в определении границ генов и стартовых позиций).
  7. Реакция на стрессовые условия (Адаптация к изменяющимся условиям среды).
  8. Горизонтальный перенос генов (Гены, полученные путем горизонтального переноса, могут сохранять оригинальные старт-кодоны).

1.3 Дополнительный анализ ТТТ как старт-кодона

Анализ выявил редкое явление: наличие TTT в качестве нефункционального старт-кодона в псевдогенах B.subtilis:

>lcl|NZ_LN680001.1_cds_VV28_RS23020_3763 [locus_tag=VV28_RS23020] 
[protein=hypothetical protein] [pseudo=true] [partial=5'] 
[location=complement(3684554..>3684628)] [gbkey=CDS]
TTTTTGCGGCAGGCCGTTGATCAGGTCTTCGCAGTTGATAATGAAGAGCATACATTGACTTT…
>lcl|NZ_LN680001.1_cds_VV28_RS22880_3933 [locus_tag=VV28_RS22880] 
[protein=YitT family protein] [pseudo=true] [partial=5',3'] 
[location=complement(<3841212..>3841408)] [gbkey=CDS]
TTTCTGATCAATTTCCCGTTTTATATATTTTCTCTCATCAGAATGGGTATCAAATTTACTCTA…

Возможные сценарии наличия TTT:

Сценарий A: Ошибки аннотации

Сценарий B: Артефакты деградации генов

Сценарий C: Проблемы сборки генома

1.4 Заключение

Анализ старт-кодонов трех бактериальных геномов показал, что использование не-ATG старт-кодонов представляет собой комбинацию биологически значимых механизмов и артефактов аннотации. Функциональные альтернативные старт-кодоны GTG (3.6-9.2%) и TTG (4.4-13.0%) служат для тонкой регуляции уровня экспрессии генов, что является адаптивным механизмом, позволяющим контролировать синтез белков в зависимости от клеточных потребностей. Однако большинство экзотических старт-кодонов (AAG, GTT, GGT, TAT и др.), особенно встречающихся единственный раз, связаны с псевдогенами или неполными генами, что указывает на артефакты аннотации, а не на функциональные биологические механизмы.

Особый случай представляет TTT, который теоретически может быть старт-кодоном, но в действительности все обнаруженные примеры оказались псевдогенами на комплементарных цепях с пометками [pseudo=true] и [partial]. Это подтверждает, что TTT как старт-кодон является артефактом аннотации.

Таким образом, разнообразие старт-кодонов у бактерий отражает как эволюционные адаптации (через GTG/TTG), так и ограничения современных методов аннотации геномов.

2. Задание 2. Анализ наличия в P.acidaminophilum стоп-кодонов не в конце последовательности

Для анализа был подготовлен скрипт на Python (https://cloud.mail.ru/public/jCku/NdHVrewdu).

Всего было выявлено 23 последовательности, в которых выявлено присутствие стоп-кодонов не в конце последовательности:

  1. Селеноцистеин-содержащие белки. У 14 последовательностей в описании выявлены записи вида «transl_except=(pos:XXX..XXX,aa:Sec)» (Например, >lcl|NZ_CP007452.1_cds_WP_084480872.1_219 - [protein=betaine reductase selenoprotein B] [transl_except=(pos:1045..1047,aa:Sec)]). Селеноцистеин (Sec) — 21-я аминокислота, кодируется стоп-кодоном TGA, но в определенном контексте он рекрутируется как селеноцистеин, а не как сигнал терминации трансляции.
  2. Псевдогены. У 9 последовательностей в описании выявлены теги записи вида [pseudo=true], что демонстрирует принадлежность к нефункциональным генам, накопившим мутации (в том числе преждевременные стоп-кодоны).

3. Задание 3. Подсчет стоп-кодонов

Для анализа был подготовлен скрипт на Python (https://cloud.mail.ru/public/fG3K/AggNiEoRf).

Таблица 3. Количество и процентное содержание стоп-кодонов

SeqTAATAGTGAOtherTAA%TAG%TGA%Other%
Bacillus subtilis433827216199841462,72%14,27%22,68%0,32%
Peptoclostridium acidaminophilum21441091762284750,89%35,54%13,25%0,33%
Ureaplasma urealyticum parvum617530870085,90%14,10%0,00%0,00%

Основное наблюдение – у U. urealyticum parvum полностью отсутствуют стоп-кодоны TGA. Научное объяснение: У некоторых организмов с минимальным геномом происходит рекодирование стоп-кодонов, например, Mycoplasma spp. и Ureaplasma spp. известны использованием TGA для кодирования триптофана (Trp), а не как стоп-кодона. Упоминание этого факта приводится в научной работе «Glass et al., 2000 — "The complete sequence of the mucosal pathogen Ureaplasma urealyticum" (Nature, 407: 757-762)»: Ureaplasma имеет один из самых маленьких геномов среди свободноживущих организмов. Использование TGA для триптофана позволяет уменьшить количество tRNA генов, оптимизировать использование генетического пространства и избежать необходимости в энергоемкой селеноцистеиновой модификации.

4. Задание 4. Анализ генов, содержащих в описании координат join для Bacillus subtilis и Peptoclostridium

Для анализа был подготовлен скрипт на Python (https://cloud.mail.ru/public/apGQ/H5dHPQNze).

Результаты работы скрипта, который ищет записи с join представлены ниже:

ОРГАНИЗМ: BACILLUS_SUBTILIS
Всего генов с join: 1

ГЕН #1
  ID записи: lcl|NZ_LN680001.1_cds_WP_010886623.1_3723
  Имя гена: prfB
  Название белка: peptide chain release factor 2
  (exception): ribosomal slippage

ОРГАНИЗМ: PEPTOCLOSTRIDIUM
Всего генов с join: 5

ГЕН #1
  ID записи: lcl|NZ_CP007452.1_cds_WP_148295968.1_564
  Имя гена: N/A
  Название белка: IS3 family transposase
  (exception): ribosomal slippage

ГЕН #2
  ID записи: lcl|NZ_CP007452.1_cds_WP_148295968.1_694
  Имя гена: N/A
  Название белка: IS3 family transposase
  (exception): ribosomal slippage

ГЕН #3
  ID записи: lcl|NZ_CP007452.1_cds_WP_096325256.1_1023
  Имя гена: N/A
  Название белка: IS3 family transposase
  (exception): ribosomal slippage

ГЕН #4
  ID записи: lcl|NZ_CP007452.1_cds_WP_096325256.1_1027
  Имя гена: N/A
  Название белка: IS3 family transposase
  (exception): ribosomal slippage

ГЕН #5
  ID записи: lcl|NZ_CP007452.1_cds_WP_096325248.1_1716
  Имя гена: prfB
  Название белка: peptide chain release factor 2
  (exception): ribosomal slippage

Наличие join указывает на программируемый рибосомный сдвиг рамки считывания (programmed ribosomal frameshifting). Это механизм пост-транскрипционной регуляции, при котором рибосома сдвигается на один нуклеотид во время трансляции, что приводит к синтезу альтернативного белка из той же мРНК. Все 6 найденных генов имеют аннотацию [exception=ribosomal slippage], подтверждающую этот биологический механизм.

У рассматриваемых бактерий нет классического эукариотического сплайсинга. У прокариот отсутствуют интроны в белково-кодирующих генах, а транскрипция и трансляция сопряжены во времени и пространстве. Вместо сплайсинга бактерии используют альтернативные механизмы регуляции, такие как программируемый рибосомный сдвиг рамки, обнаруженный в данном исследовании. Это принципиально иной механизм, работающий на уровне трансляции, а не процессинга РНК.

5. Задание 5. Анализ данных конкретной сборки генома человека по определенным координатам сплайсинга

Для анализа были подготовлены скрипты на Python (https://cloud.mail.ru/public/Wcei/iKXkAXCtF).

В процессе анализа файла «canonical_dataset.txt» было определено, что он содержит координаты в нестандартном формате. Поиск способа интерпретации столбцов «exon_starts» и «exon_ends» занял несколько итераций:

Попытка 1 (неудачно). Прямое использование координат как границ экзон-интрон. Результат: 17-18% GT для donor, 55-60% AG для acceptor.

Попытка 2 (неудачно). Поиск оптимальных смещений. Тестирование различных смещений (-10 до +10). Результат: не найдено конфигураций с >50% для donor.

Попытка 3 (неудачно). Поиск в окрестностях. Поиск ближайших GT/AG в пределах +-50 нуклеотидов. Результат: 99.4% интронов имеют GT и AG, но распределение размазано, координаты не соответствуют единому паттерну смещения.

Попытка 4 (успех). Адаптивный поиск. Для каждого интрона осуществлялся индивидуальный поиск GT и AG в пределах +-100 нуклеотидов от указанных координат.

5.1 Информация по обработанным данным

Два скрипта работают последовательно, после первого прохода формируются промежуточные файлы анализа:

  1. donor_sites.txt. Формат: gene-chrom-strand-position-type-sequence. Последовательность: 9 нуклеотидов с GT на позициях [3:5]
  2. acceptor_sites.txt. Формат: gene-chrom-strand-position-type-sequence. Последовательность: 9 нуклеотидов с AG на позициях [5:7]
  3. all_splice_sites.txt. Объединённый файл всех сайтов.

Второй скрипт анализирует промежуточные результаты и формирует итоговый отчет анализа (сокращенно):

================================================================================
АНАЛИЗ РЕЗУЛЬТАТОВ ИЗВЛЕЧЕНИЯ САЙТОВ СПЛАЙСИНГА
================================================================================

Загружено donor сайтов: 166145
Загружено acceptor сайтов: 166153

================================================================================
1. ОБЩАЯ СТАТИСТИКА
================================================================================
Всего сайтов сплайсинга: 332298
  Donor сайтов: 166145
  Acceptor сайтов: 166153
...
================================================================================
2. АНАЛИЗ КАНОНИЧЕСКИХ МОТИВОВ
================================================================================
DONOR сайты (ожидаем GT на позициях 3-4):
  GT: 166145 (100.00%) ✓ CANONICAL

ACCEPTOR сайты (ожидаем AG на позициях 5-6):
  AG: 166153 (100.00%) ✓ CANONICAL

================================================================================
6. АНАЛИЗ НЕКАНОНИЧЕСКИХ САЙТОВ
================================================================================
Неканонических donor сайтов: 0 (0.00%)
Неканонических acceptor сайтов: 0 (0.00%)
================================================================================
ФИНАЛЬНАЯ СВОДКА
================================================================================
Всего извлечено сайтов сплайсинга: 332298

Итого, анализ выявил, что все обнаруженные сайты сплайсинга являются каноническими (100% GT для donor и AG для acceptor), это не соответствует найденной в открытых источниках информации (должно быть ~1% неканонических сайтов). Возможное объяснение здесь видится в исходных настройках алгоритма поиска, который изначально настроен на поиск строго канонических мотивов.

Варианты дальнейшего анализа:

← К списку работ семестра