Арсений Смирнов (Факультет Биоинженерии и Биоинформатики МГУ)
В 2012 году из солончаков Тайваня была выделена и описана галофильная бактерия Nelituniibacter halolihilus. Целью данной работы было исследование общих характеристик белков, генов и старт-кодонов этой бактерии. В ходе работы было обнаружено, что пересечения CDS никогда не могут быть длины 2, а также никогда не кратны 3, рассмотрено распределение старт-кодонов генома бактерии, а также белков, закодированных в геноме Neptuniibacter halophilus. Показаны перспективы для дальнейшего изучения.
Neptuniibacter halophilus – грам-отрицательная аэробная палочка, Принадлежит к сем. Oceanospirillaceae, почти полностью состоящему из галофильных бактерий. Она была получена из Тайваньских солончаков и описана в 2012 году [2].
Таксономически находится ближе всего к Neptuniibacter caesariensis. (совпадение 16S-рРНК 96,7%) [2]. Метаболизм хемоорганотрофный, но как источник углерода Neptuniibacter halophilus использует органические кислоты и аминокислоты. GC-состав генома – 47% [2].
Были получены гистограммы длин белков и длин пересечений генов белков, а также таблица старт-кодонов CDS “+”-цепи генома N. halophilus.
В результате работы с CDS генома бактерии Neptuniibacter halophilus была получена гистограмма длин белков (Рис.1), отображающая распределение белков генома по карманам длин.
Рис. 1. Гистограмма длин белков. По оси абсцисс отложены карманы длин белков в аминокислотах (АК), а по оси ординат количество белков, длины которых принадлежат этим карманам.
По гистограмме длин белков можно заметить, что длины 60,4% белков выбранной бактерии попадают в промежуток от 60 до 380 аминокислот.
Важно заметить, что максимальная длина белка составляет 11847 аминокислот для антипортера Na+/Ca2+ [III], [4].
Данный белок необходим для получения натрия из внешней среды и выведения кальция из клеток бактерии [6]. На солончаках он может работать более эффективно из-за повышенных концентраций натрия.
В дальнейшем возможно провести исследование структуры этого белка для понимания принципов его работы и причин увеличения его размера относительно родственных белков. Например, длины Calx-domain содержащих белков родственного Neptuniibacter sp. были получена как ~8200 АК [7], так и ~11800 АК [8], что заставляет задуматься, как именно они выполняют свою функцию и по какой причине имеют такие различные размеры.
Важным элементом работы было исследование стартовых кодонов.
Была получена таблица, в которой приведены количества старт-кодонов нормальных генов и псевдогенов. Также были рассчитаны частоты встречаемости в процентах (см. листы cds_normal и cds_pseudo таблицы IV).
| Codons | All CDS | Pseudo CDS | Normal CDS | ATG | 3310 | 10 | 3300 | GTG | 310 | 1 | 309 | TTG | 103 | 1 | 102 | CTG | 6 | Not found | 6 | ATA | 4 | Not found | 4 | ATC | 3 | 1 | 2 | ATT | 3 | Not found | 3 | AAA | 1 | 1 | Not found | AAC | 1 | 1 | Not found | GCT | 1 | 1 | Not found | CTT | 1 | 1 | Not found | TAT | 1 | 1 | Not found |
|---|
Данная таблица (Таб.3) демонстрирует стартовые кодоны генов и псевдогенов в геноме Neptuniibacter halophilus. По ней можно увидеть, что Neptuniibacter halophilus имеет нормальный бактериальный набор старт-кодонов [3].
В свою очередь, псевдогены могут иметь как стартовые кодоны любые последовательности, поскольку не являются жизненно необходимыми для бактерии, по ним не проходит отрицательный отбор и мутации могут происходить беспрепятственно.
Была получена таблица, в которой приведены количества стоп-кодонов нормальных генов и псевдогенов. Также были рассчитаны частоты встречаемости в процентах (см. листы cds_normal и cds_pseudo таблицы IV).
| Codons | All CDS | Pseudo CDS | Normal CDS | TGA | 1639 | 43 | 1596 | TAA | 1677 | 5 | 1672 | TAG | 468 | 10 | 458 |
|---|
Важно отметить, что количество старт-кодонов для нормальных генов совпадает с количеством стоп-кодонов для них же (3726 шт.). Но для псевдогенов разница составила 40 стоп-кодонов, что в несколько раз больше общего количества псевдогенов.
Скорее всего, это происходит по той же причине, по которой псевдогены утрачивают нормальные старт-кодоны. Мутации в псевдогенах не подвержены отрицательному отбору и закрепляются беспрепятственно, поэтому одному псевдогену может принадлежать несколько стоп-кодонов.
Длины пересечений CDS на “+”-цепи в геноме Neptuniibacter halophilus
Геномы бактерий имеют пересекающиеся CDS. Представляет интерес изучение их размеров и закономерностей, согласно которым они образуются. Таким образом, представляет интерес рассмотрение длины пересечений CDS и, к примеру, математическое описание длин, из которого можно определить их кратность трём (длине кодона).
Ниже приведены гистограмма длин пересечений CDS, рассмотрение возможных длин пересечений до 6 и таблица остатков от деления на 3 для длин пересечений CDS генома Neptuniibacter halophilus.
В процессе работы получена гистограмма длин пересечений CDS на “+”-цепи с карманом 1 нт.
Рис. 2. Гистограмма длин пересечений CDS на “+”-цепи. По оси абсцисс отложены карманы длин пересечений CDS в нуклеотидах (нт.), а по оси ординат количество длин пересечений генов, принадлежащие этим карманам (ниже 4 значений не найдено).
Общее количество CDS на “+”-цепи составило 1777, пересекающихся со следующими на “+”-цепи – 324, процент таких CDS от всех на “+”-цепи составил 18,23%.
Возможно, такие пересечения возникают из-за работы транспозонов и вирусов и закрепляются из-за пространственных ограничений генома бактерии (т.е. размера клетки, в которую необходимо поместить хромосому). Но в то же время, большая часть большая часть пересечений (52,4%) составляет 4 нуклеотида. Вероятно, более короткие пересечения CDS не так негативно сказываются на жизнеспособности бактерии, как это делают более длинные.
Было выдвинуто предположение, что преобладание длин пересечений CDS, равных 4, возможно обосновать вероятностно. (см. раздел 3.3.3 Различные пересечения)
Рис. 2. Гистограмма длин пересечений CDS на “-”-цепи. По оси абсцисс отложены карманы длин пересечений CDS в нуклеотидах (нт.), а по оси ординат количество длин пересечений генов, принадлежащие этим карманам (ниже 4 значений не найдено).
При более внимательном рассмотрении гистограмм (рис. 2,3) можно заметить, что длины пересечений CDS, кратные трём, равны нулю. Предположим, что это правильно для всех пересечений CDS и получим таблицу остатков от деления на три для всех CDS.
| Остаток от деления длины пересечения CDS на 3, нт. | Количество пересечений, шт. | 0 | 0 | 1 | 199 | 2 | 135 |
|---|
Важно отметить, что в полученных данных не наблюдается остатков от деления на 3 равных нулю (т.е. не наблюдается пересечений CDS, длина которых кратна 3). Это связанно с тем, что при подобном пересечении в рамке считывания второго гена появится стоп-кодон первого, что приведёт к утрате продукта, кодируемого геном. Таким образом, по подобным вариациям может происходить отрицательный отбор, что приводит к их полному отсутствию в геноме бактерии.
Рис. 3. Демонстрация различных пересечений для длин 1–5. Красными линиями отмечены пересечения, старт- и стоп-кодоны подписаны слева.
Для пересечений CDS длиной 1 необходимо совпадение первого нуклеотида старт-кодона последнему нуклеотиду стоп-кодона. Это может происходить в 42,9% случаев [VI] – лист int_prob от всех возможных (с учётом вероятностей появления любого из старт- и стоп-кодонов).
Для пересечений CDS длиной 2 и 3 необходимо чтобы вторая позиция старт-кодона (T) была той же, что и вторая или третья позиции стоп-кодона (G,C), что невозможно, так как они не имеют одинаковых нуклеотидов.
Для пересечений CDS длиной 4 нуклеотида нужно соответствие второй позиции старт-кодона (T) и первой позиции стоп-кодона (T), что выполняется всегда, а также соответствие третьей позиции старт-кодона (A,T,G,C) второй позиции стоп-кодона (A,G), но это выполняется лишь в 28,6% случаев [VI] – лист int_1_prob.
Для пересечений CDS длиной 5 требуется соответствие первой позиции стоп-кодона (T) последней позиции старт-кодона (A,T,G,C), что возможно в 14,3% случаев [VI] – лист int_1_prob.
Прочие пересечения не учитывают соответствия нуклеотидов старт- и стоп-кодонов.
Таким образом можно предположить, что длины пересечения генов, равные 4, хоть и менее вероятны при таком подсчёте, чем пересечения длиной 1, влияют на жизнедеятельность организмов менее всего и закрепляются проще, хотя генов без пересечений в геноме гораздо больше, и говорить о преимуществах пересечений CDS в такой ситуации будет странно.
Важно также отметить, что пересекаются преимущественно CDS со сходной функцией, субъединицы или включённые в одни или схожие процессы (что можно увидеть на листе int_CDS_prot таблицы Intersecting_CDS[VI]). Возможно, это также заслуживает внимания в дальнейших работах.
Можно предположить, что пересечения генов образуются вследствие работы транспозонов, но это также требует дальнейшего изучения.