Были исследованы особенности генома патогенной бактерии, Simkania negevensis Z. На основе имеющихся данных были построены распределения длин белков и расстояний между кодирующими последовательностями. В значительной мере были изучены особенности системы секреции 3 типа(T3SS, Type 3 Secretion System), а также представлены рассуждения о дальнейших перспективах изучения этой системы, так как эти белки являются факторами патогенности, их изучение может иметь практический интерес.⁷
Simkania negevensis Z. - грам-отрицательная, мезофильная бактерия, впервые обнаружена как контаминант клеточных культур. Анализ 16S рРНК1 показал 73% гомологии с Rickettsia и 83% с Chlamydia spp., авторы пришли к выводу об открытии нового хламидие-подобного организма(CLOs).
Вид: Simkania negevensis, род: Simkania, семейство: Simkaniaceae, порядок: Chlamydiales, класс: Chlamydiia, филум: Chlamydiota, домен: Bacteria.²
Как и другие представители порядка Chlamydiales, Simkania negevensis Z. является облигатным внутриклеточным паразитом дыхательных путей. Для данной бактерии характерен двухфазный цикл развития, который включает в себя две стадии: инфекционную элементарную и репликативную ретикулярную. Simkania negevensis Z. ассоциирована с пневмонией у взрослых людей и бронхиолитом новорожденных.1 Помимо этого, бактерия может инфицировать Amoeba sp. , и большое количество других эукариотических клеток, включая те, которые отвечают за врожденный иммунитет(например, макрофаги).³
Для анализа генома и протеома были взяты данные о Simkania negevensis Z. из базы данных NCBI (NCBI). Использовались следующие файлы:
1) Файл “GCF_000237205.1_ASM23720v1_cds_from_genomic.fna.gz” - кодирующие последовательности.
2) Файл “GCF_000237205.1_ASM23720v1_feature_table.txt.gz”’ - таблица особенностей генома.
Для анализа распределения длин белков, закодированных в геноме Simkania negevensis Z., были использованы кодирующие последовательности, импортированные в электронные таблицы. Данные были обработаны: сначала были вычислены длины белков (см. лист prot_lenghts в Сопроводительные материалы 2: ‘Построение распределения длин белков’ ), затем определены диапазоны длин и количества белков, имеющие конкретную длину.
Для дополнительного анализа распределения длин белков были вычислены первый (Q1), второй (Q2, медиана), третий (Q3) квартили. С помощью первого и третьего квартилей был вычислен интерквартильный размах.
Также проведен анализ расстояний между кодирующими последовательностями (CDS), расположенных на хромосомах. Использовалась таблица особенностей генома Simkania negevensis Z. Данные были импортированы в электронные таблицы и обработаны методами (см. Сопроводительные материалы 4: ‘Построение распределения расстояний между CDS’), которые аналогичны используемым для построения гистограммы длин белков. Кодирующие последовательности на плюс-цепи и минус-цепи анализировались отдельно.
Помимо этого, был проведен анализ белков, входящих в состав системы секреции 3 типа (The Chlamydial Type III Secretion System)². Использовались таблица особенностей генома Simkania negevensis Z, аннотированные кодирующие последовательности. С помощью скрипта Python (см. Сопроводительные материалы 5: ‘Поиск белков , входящих в состав T3SS’) сначала все CDS были поделены на хромосомные и плазмидные. Затем последовательности были обработаны с помощью BioPython и MacSyFinder⁶- биоинформатический инструмент, который ищет макромолекулярные системы в наборах белковых последовательностей, используя при этом заранее обученные модели.
1) Длины белков белков, закодированных в геноме Simkania negevensis Z.
С помощью полученного распределения (см. Рис. 1) можно определить примерные длины большинства белков, а также сравнить со средней длиной белка бактерий. Можно определить наличие особенностей, связанных с длинами белков.
Рис. 1. Гистограмма длин белков Simkania negevensis Z.
(По оси абсцисс (range) указаны диапазоны длин белков в аминокислотных остатках, по оси ординат (count) — количество белков.)
На гистограмме (см. Рис. 1) можно отметить ассиметричность распределения. Неравномерность также подтверждается значением медианы - 234 аминокислоты. Это значит, что ровно половина закодированных в геноме белков имеют длину меньше 234, другая - больше 234. Но при этом длины белков варьируются от 122 до 4385 (мин. и макс. значения).
Значит, лишь 25% всех белков попадает в диапазон от 345 до 4385 (это свидетельствует о наличии ‘хвоста’). Около 25% длин белков имеет длину от 20 до 122. И, наконец, центральный диапазон, который включает в себя 50% всех длин: 122 - 345 (IQR, или интерквартильный размах). (см. Таблица 1)
Эти значения соответствуют таковым у других бактерий (в среднем длина белка составляет 322 аминокислотных остатка)⁵.
| Параметр | Значение (а.о.) |
|---|---|
| Минимальная длина | 20 |
| Максимальная длина | 4385 |
| Q1 (первый квартиль) | 122 |
| Q2 (второй квартиль, медиана) | 234 |
| Q3 (третий квартиль) | 345 |
| IQR (интерквартильный размах) | 223 (диапазон 122-345) |
В дальнейшем можно использовать эти данные для более точной оценки отличий в длине белков различных представителей порядка Chlamydiales. Например, не обязательно использовать все белки, можно выбрать те из них, которые объединены в одном метаболическом процессе.
С помощью анализа длин белков, которые входят в состав системы секреции 3 типа можно проследить эволюционные тенденции в изменениях этих последовательностей (например, можно выявить дупликации и попробовать соотнести частоту дупликаций с вирулентностью хламидие-подобных организмов (CLOs)).
2) Расстояния между кодирующими последовательностями(CDS).
Целью было выявить отличия в расстояниях между CDS на ‘+’-цепи и ‘-’-цепи, а также определить моду, наличие перекрытий последовательностей.
Рис. 2. Гистограмма расстояний на минус-цепи между CDS Simkania negevensis Z.
(ось ‘count’ - количество белков, ось ‘range’ - диапазоны длин между CDS, в нуклеотидах).
Рис. 2. Гистограмма расстояний на минус-цепи между CDS Simkania negevensis Z.
(ось ‘count’ - количество белков, ось ‘range’ - диапазоны длин между CDS, в нуклеотидах).
Распределение расстояний между CDS значимо не отличается на ‘+’-цепи и ‘-’-цепи. Большая часть значений находится в диапазоне от -30 до 150 нуклеотидов. Это значит, что большинство кодирующих последовательностей располагаются рядом. Действительно, для бактерий характерна оперонная организация CDS (под одним промотором закодировано несколько генов, которые часто имеют схожую функцию, или задействованы в общем метаболическом пути). Перекрытие кодирующих последовательностей - достаточно редкое явление (рис. 2 и рис. 3).
3) Белки, входящие в состав системы секреции 3 типа (The Chlamydial Type III Secretion System)².
Для Simkania negevensis Z. характерны большие плазмиды (в отличие от других представителей порядка Chlamydiales) 2 . Я предположила, что плазмиды изучаемой бактерии могут содержать CDS системы секреции 3 типа.
| number | gene_id | start | end | strand | length | utr |
|---|---|---|---|---|---|---|
| 0 | lcl|NC_015713.1_cds_WP_1 58307198.1_265 | 291089 | 291880 | -1 | 792 | -791 |
| 1 | lcl|NC_015713.1_cds_WP_0 13942633.1_266 | 291089 | 291880 | -1 | 792 | 59 |
| 2 | lcl|NC_015713.1_cds_WP_0 13942634.1_267 | 291939 | 292208 | -1 | 270 | -269 |
| 3 | lcl|NC_015713.1_cds_WP_0 13942637.1_270 | 291939 | 292208 | -1 | 270 | 6 |
| 4 | lcl|NC_015713.1_cds_WP_0 13944107.1_1647 | 292214 | 293080 | -1 | 867 | -866 |
| 5 | lcl|NC_015713.1_cds_WP_0 13944108.1_1648 | 292214 | 293080 | -1 | 867 | 1500 |
| 6 | lcl|NC_015713.1_cds_WP_0 13944344.1_1870 | 294580 | 295533 | -1 | 954 | -953 |
| 7 | lcl|NC_015713.1_cds_WP_0 13944348.1_1874 | 294580 | 295533 | -1 | 954 | 154081 0 |
| 8 | lcl|NC_015713.1_cds_WP_1 58307240.1_1879 | 183634 3 | 183741 9 | 1 | 1077 | -3 |
| 9 | lcl|NC_015713.1_cds_WP_1 58307198.1_265 | 183741 6 | 183954 2 | 1 | 2127 | 238616 |
| 10 | lcl|NC_015713.1_cds_WP_0 13942633.1_266 | 207815 8 | 207947 4 | 1 | 1317 | -1316 |
| 11 | lcl|NC_015713.1_cds_WP_0 13942634.1_267 | 207815 8 | 207947 4 | 1 | 1317 | 3148 |
| 12 | lcl|NC_015713.1_cds_WP_0 13942637.1_270 | 208262 2 | 208380 0 | 1 | 1179 | -1178 |
| 13 | lcl|NC_015713.1_cds_WP_0 13944344.1_1870 | 208262 2 | 208380 0 | 1 | 1179 | 3748 |
| 14 | lcl|NC_015713.1_cds_WP_0 13944348.1_1874 | 208754 8 | 209284 2 | 1 | 5295 | also |
Однако, MacSyFinder v2 не нашел T3SS (Type III Secretion System) на плазмидах. Мое предположение могло оказаться неверным. Но, MacSyFinder v2 анализирует последовательности на наличие кластеров белков (которые затем будут формировать макромолекулярные системы). Значит, на плазмидах могут содержаться отдельные белки, но не кластеры. Можно проверить это в дальнейших исследованиях. На хромосоме было найдено 14 белков, входящих в состав T3SS (Сопроводительные материалы 6: ‘Таблица параметров белков, входящих в состав T3SS’).
Есть 2 кластера макромолекулярных систем на плюс-цепи и минус-цепи (CDS располагаются близко друг к другу на одной цепи). Значит, у изучаемой бактерии действительно хорошо развита T3SS, которая позволяет эффективно инфицировать клетку-хозяина.⁷
В дальнейшем можно использовать полученные данные для широкого спектра задач. Во-первых, можно построить структурную организацию этих генов (для этого необходимо вычислить UTR (нетранслируемые области), начало, конец, длину CDS) , затем построить структурную организацию для небольшой выборки рандомных CDS. Затем, обнаружить отличия. Предварительно, точно можно сказать, что расстояние между CDS T3SS, находящихся на одной цепи будет точно меньше, чем для рандомных CDS. По таблице (Рис. 4) видно, что расстояние между CDS в среднем меньше, чем было получено при вычислении расстояний между CDS (предыдущий пункт); многие CDS перекрываются. Значит, их объединяет общий метаболический процесс и они входят в состав одной макромолекулярной системы.
1) Построение распределения длин белков.
2) Построение распределения расстояний между CDS.
3) Поиск белков , входящих в состав T3SS.
4) Таблица параметров белков, входящих в состав T3SS.