Для анализа был подготовлен скрипт на Python (https://cloud.mail.ru/public/82w2/TmgU85w37).
Таблица 1. Сводная информация по B.subtilis, P.acidaminophilum, U.urealyticum parvum
| Показатель | Bacillus subtilis | Peptoclostridium acidaminophilum | Ureaplasma urealyticum parvum |
|---|---|---|---|
| Всего последовательностей | 4338 | 2144 | 617 |
| Всего псевдогенов | 41 | 16 | 7 |
| Доля псевдогенов (%) | 0,95 | 0,75 | 1,13 |
| Основные старт-кодоны: ATG | 3333 (76.8%) | 1682 (78.5%) | 560 (90.8%) |
| Основные старт-кодоны: GTG | 397 (9.2%) | 180 (8.4%) | 22 (3.6%) |
| Основные старт-кодоны: TTG | 562 (13.0%) | 249 (11.6%) | 27 (4.4%) |
| Другие старт-кодоны | 46 (1.1%) | 33 (1.5%) | 8 (1.3%) |
| Уникальные кодоны (1 раз) | 11 | 6 | 2 |
| Псевдогены среди уникальных | 6 | 3 | 0 |
| Доля псевдогенов среди уникальных (%) | 54,55 | 50 | 0 |
Таблица 2. Старт-кодоны в бактериях
| Старт кодон | Bacillus subtilis | Peptoclostridium acidaminophilum | Ureaplasma urealyticum parvum | Всего |
|---|---|---|---|---|
| ATG | 3333 | 1682 | 560 | 5575 |
| TTG | 562 | 249 | 27 | 838 |
| GTG | 397 | 180 | 22 | 599 |
| ATT | 14 | 9 | 2 | 25 |
| ATC | 7 | 5 | 1 | 13 |
| ATA | 0 | 9 | 2 | 11 |
| CTG | 6 | 1 | 0 | 7 |
| TTA | 1 | 2 | 2 | 5 |
| CTA | 2 | 2 | 0 | 4 |
| GAA | 2 | 1 | 0 | 3 |
| AAG | 1 | 1 | 0 | 2 |
| AGC | 1 | 1 | 0 | 2 |
| CAA | 2 | 0 | 0 | 2 |
| GGT | 1 | 1 | 0 | 2 |
| TAT | 1 | 0 | 1 | 2 |
| TTT | 2 | 0 | 0 | 2 |
| ACA | 1 | 0 | 0 | 1 |
| AGA | 1 | 0 | 0 | 1 |
| CAT | 1 | 0 | 0 | 1 |
| CGG | 1 | 0 | 0 | 1 |
| GAT | 1 | 0 | 0 | 1 |
| GTT | 1 | 0 | 0 | 1 |
| TAC | 0 | 1 | 0 | 1 |
Доминирование ATG с вариацией по видам: Во всех исследованных бактериях ATG является преобладающим старт-кодоном, однако его доля существенно варьирует — от 76.8% у Bacillus subtilis до 90.8% у Ureaplasma urealyticum parvum, что отражает различия в эволюционных стратегиях и сложности геномной организации. Наряду с ATG стабильно присутствуют два основных альтернативных старт-кодона: TTG (4.4-13.0%) и GTG (3.6-9.2%), которые, вероятно, выполняют регуляторные функции, модулируя уровень экспрессии соответствующих генов.
Артефактное происхождение редких старт-кодонов: Большинство экзотических старт-кодонов (ATT, ATC, CTG, AAG, GTT и др.), особенно встречающихся только один раз, имеют прямое отношение к псевдогенам или ошибкам аннотации. У Bacillus subtilis 54.5% уникальных кодонов (6 из 11), а у Peptoclostridium acidaminophilum 50% (3 из 6) являются псевдогенами с маркером [pseudo=true], что указывает на их артефактный характер.
ATG старт-кодоновТТТ как старт-кодонаАнализ выявил редкое явление: наличие TTT в качестве нефункционального старт-кодона в псевдогенах B.subtilis:
>lcl|NZ_LN680001.1_cds_VV28_RS23020_3763 [locus_tag=VV28_RS23020] [protein=hypothetical protein] [pseudo=true] [partial=5'] [location=complement(3684554..>3684628)] [gbkey=CDS] TTTTTGCGGCAGGCCGTTGATCAGGTCTTCGCAGTTGATAATGAAGAGCATACATTGACTTT…
>lcl|NZ_LN680001.1_cds_VV28_RS22880_3933 [locus_tag=VV28_RS22880] [protein=YitT family protein] [pseudo=true] [partial=5',3'] [location=complement(<3841212..>3841408)] [gbkey=CDS] TTTCTGATCAATTTCCCGTTTTATATATTTTCTCTCATCAGAATGGGTATCAAATTTACTCTA…
Возможные сценарии наличия TTT:
Сценарий A: Ошибки аннотации
TTTTTG мог быть TTG если сдвинуть рамку.TTTCTG мог быть частью другого кодона.Сценарий B: Артефакты деградации генов
TTT мог появиться в результате дегенеративных мутаций.Сценарий C: Проблемы сборки генома
Анализ старт-кодонов трех бактериальных геномов показал, что использование не-ATG старт-кодонов представляет собой комбинацию биологически значимых механизмов и артефактов аннотации. Функциональные альтернативные старт-кодоны GTG (3.6-9.2%) и TTG (4.4-13.0%) служат для тонкой регуляции уровня экспрессии генов, что является адаптивным механизмом, позволяющим контролировать синтез белков в зависимости от клеточных потребностей. Однако большинство экзотических старт-кодонов (AAG, GTT, GGT, TAT и др.), особенно встречающихся единственный раз, связаны с псевдогенами или неполными генами, что указывает на артефакты аннотации, а не на функциональные биологические механизмы.
Особый случай представляет TTT, который теоретически может быть старт-кодоном, но в действительности все обнаруженные примеры оказались псевдогенами на комплементарных цепях с пометками [pseudo=true] и [partial]. Это подтверждает, что TTT как старт-кодон является артефактом аннотации.
Таким образом, разнообразие старт-кодонов у бактерий отражает как эволюционные адаптации (через GTG/TTG), так и ограничения современных методов аннотации геномов.
Для анализа был подготовлен скрипт на Python (https://cloud.mail.ru/public/jCku/NdHVrewdu).
Всего было выявлено 23 последовательности, в которых выявлено присутствие стоп-кодонов не в конце последовательности:
«transl_except=(pos:XXX..XXX,aa:Sec)» (Например, >lcl|NZ_CP007452.1_cds_WP_084480872.1_219 - [protein=betaine reductase selenoprotein B] [transl_except=(pos:1045..1047,aa:Sec)]). Селеноцистеин (Sec) — 21-я аминокислота, кодируется стоп-кодоном TGA, но в определенном контексте он рекрутируется как селеноцистеин, а не как сигнал терминации трансляции.[pseudo=true], что демонстрирует принадлежность к нефункциональным генам, накопившим мутации (в том числе преждевременные стоп-кодоны).Для анализа был подготовлен скрипт на Python (https://cloud.mail.ru/public/fG3K/AggNiEoRf).
Таблица 3. Количество и процентное содержание стоп-кодонов
| Seq | TAA | TAG | TGA | Other | TAA% | TAG% | TGA% | Other% | |
|---|---|---|---|---|---|---|---|---|---|
| Bacillus subtilis | 4338 | 2721 | 619 | 984 | 14 | 62,72% | 14,27% | 22,68% | 0,32% |
| Peptoclostridium acidaminophilum | 2144 | 1091 | 762 | 284 | 7 | 50,89% | 35,54% | 13,25% | 0,33% |
| Ureaplasma urealyticum parvum | 617 | 530 | 87 | 0 | 0 | 85,90% | 14,10% | 0,00% | 0,00% |
Основное наблюдение – у U. urealyticum parvum полностью отсутствуют стоп-кодоны TGA. Научное объяснение: У некоторых организмов с минимальным геномом происходит рекодирование стоп-кодонов, например, Mycoplasma spp. и Ureaplasma spp. известны использованием TGA для кодирования триптофана (Trp), а не как стоп-кодона. Упоминание этого факта приводится в научной работе «Glass et al., 2000 — "The complete sequence of the mucosal pathogen Ureaplasma urealyticum" (Nature, 407: 757-762)»: Ureaplasma имеет один из самых маленьких геномов среди свободноживущих организмов. Использование TGA для триптофана позволяет уменьшить количество tRNA генов, оптимизировать использование генетического пространства и избежать необходимости в энергоемкой селеноцистеиновой модификации.
Для анализа был подготовлен скрипт на Python (https://cloud.mail.ru/public/apGQ/H5dHPQNze).
Результаты работы скрипта, который ищет записи с join представлены ниже:
ОРГАНИЗМ: BACILLUS_SUBTILIS Всего генов с join: 1 ГЕН #1 ID записи: lcl|NZ_LN680001.1_cds_WP_010886623.1_3723 Имя гена: prfB Название белка: peptide chain release factor 2 (exception): ribosomal slippage ОРГАНИЗМ: PEPTOCLOSTRIDIUM Всего генов с join: 5 ГЕН #1 ID записи: lcl|NZ_CP007452.1_cds_WP_148295968.1_564 Имя гена: N/A Название белка: IS3 family transposase (exception): ribosomal slippage ГЕН #2 ID записи: lcl|NZ_CP007452.1_cds_WP_148295968.1_694 Имя гена: N/A Название белка: IS3 family transposase (exception): ribosomal slippage ГЕН #3 ID записи: lcl|NZ_CP007452.1_cds_WP_096325256.1_1023 Имя гена: N/A Название белка: IS3 family transposase (exception): ribosomal slippage ГЕН #4 ID записи: lcl|NZ_CP007452.1_cds_WP_096325256.1_1027 Имя гена: N/A Название белка: IS3 family transposase (exception): ribosomal slippage ГЕН #5 ID записи: lcl|NZ_CP007452.1_cds_WP_096325248.1_1716 Имя гена: prfB Название белка: peptide chain release factor 2 (exception): ribosomal slippage
Наличие join указывает на программируемый рибосомный сдвиг рамки считывания (programmed ribosomal frameshifting). Это механизм пост-транскрипционной регуляции, при котором рибосома сдвигается на один нуклеотид во время трансляции, что приводит к синтезу альтернативного белка из той же мРНК. Все 6 найденных генов имеют аннотацию [exception=ribosomal slippage], подтверждающую этот биологический механизм.
У рассматриваемых бактерий нет классического эукариотического сплайсинга. У прокариот отсутствуют интроны в белково-кодирующих генах, а транскрипция и трансляция сопряжены во времени и пространстве. Вместо сплайсинга бактерии используют альтернативные механизмы регуляции, такие как программируемый рибосомный сдвиг рамки, обнаруженный в данном исследовании. Это принципиально иной механизм, работающий на уровне трансляции, а не процессинга РНК.
Для анализа были подготовлены скрипты на Python (https://cloud.mail.ru/public/Wcei/iKXkAXCtF).
В процессе анализа файла «canonical_dataset.txt» было определено, что он содержит координаты в нестандартном формате. Поиск способа интерпретации столбцов «exon_starts» и «exon_ends» занял несколько итераций:
Попытка 1 (неудачно). Прямое использование координат как границ экзон-интрон. Результат: 17-18% GT для donor, 55-60% AG для acceptor.
Попытка 2 (неудачно). Поиск оптимальных смещений. Тестирование различных смещений (-10 до +10). Результат: не найдено конфигураций с >50% для donor.
Попытка 3 (неудачно). Поиск в окрестностях. Поиск ближайших GT/AG в пределах +-50 нуклеотидов. Результат: 99.4% интронов имеют GT и AG, но распределение размазано, координаты не соответствуют единому паттерну смещения.
Попытка 4 (успех). Адаптивный поиск. Для каждого интрона осуществлялся индивидуальный поиск GT и AG в пределах +-100 нуклеотидов от указанных координат.
Два скрипта работают последовательно, после первого прохода формируются промежуточные файлы анализа:
donor_sites.txt. Формат: gene-chrom-strand-position-type-sequence. Последовательность: 9 нуклеотидов с GT на позициях [3:5]acceptor_sites.txt. Формат: gene-chrom-strand-position-type-sequence. Последовательность: 9 нуклеотидов с AG на позициях [5:7]all_splice_sites.txt. Объединённый файл всех сайтов.Второй скрипт анализирует промежуточные результаты и формирует итоговый отчет анализа (сокращенно):
================================================================================ АНАЛИЗ РЕЗУЛЬТАТОВ ИЗВЛЕЧЕНИЯ САЙТОВ СПЛАЙСИНГА ================================================================================ Загружено donor сайтов: 166145 Загружено acceptor сайтов: 166153 ================================================================================ 1. ОБЩАЯ СТАТИСТИКА ================================================================================ Всего сайтов сплайсинга: 332298 Donor сайтов: 166145 Acceptor сайтов: 166153 ... ================================================================================ 2. АНАЛИЗ КАНОНИЧЕСКИХ МОТИВОВ ================================================================================ DONOR сайты (ожидаем GT на позициях 3-4): GT: 166145 (100.00%) ✓ CANONICAL ACCEPTOR сайты (ожидаем AG на позициях 5-6): AG: 166153 (100.00%) ✓ CANONICAL ================================================================================ 6. АНАЛИЗ НЕКАНОНИЧЕСКИХ САЙТОВ ================================================================================ Неканонических donor сайтов: 0 (0.00%) Неканонических acceptor сайтов: 0 (0.00%) ================================================================================ ФИНАЛЬНАЯ СВОДКА ================================================================================ Всего извлечено сайтов сплайсинга: 332298
Итого, анализ выявил, что все обнаруженные сайты сплайсинга являются каноническими (100% GT для donor и AG для acceptor), это не соответствует найденной в открытых источниках информации (должно быть ~1% неканонических сайтов). Возможное объяснение здесь видится в исходных настройках алгоритма поиска, который изначально настроен на поиск строго канонических мотивов.
Варианты дальнейшего анализа:
GENCODE).