Арсений Смирнов (Факультет Биоинженерии и Биоинформатики МГУ)
В 2012 году из солончаков Тайваня была выделена и описана галофильная бактерия Nelituniibacter halolihilus. Целью данной работы было исследование общих характеристик белков, генов и старт-кодонов этой бактерии. В ходе работы было обнаружено, что пересечения CDS никогда не могут быть длины 2, а также никогда не кратны 3, рассмотрено распределение старт-кодонов генома бактерии, а также белков, закодированных в геноме Neptuniibacter halophilus. Показаны перспективы для дальнейшего изучения.
Neptuniibacter halophilus – грам-отрицательная аэробная палочка, Принадлежит к сем. Oceanospirillaceae, почти полностью состоящему из галофильных бактерий. Она была получена из Тайваньских солончаков и описана в 2012 году [2].
Таксономически находится ближе всего к Neptuniibacter caesariensis. (совпадение 16S-рРНК 96,7%) [2]. Метаболизм хемоорганотрофный, но как источник углерода Neptuniibacter halophilus использует органические кислоты и аминокислоты. GC-состав генома – 47% [2].
Были получены гистограммы длин белков и длин пересечений генов белков, а также таблица старт-кодонов CDS “+”-цепи генома N. halophilus.
В результате работы с CDS генома бактерии Neptuniibacter halophilus была получена гистограмма длин белков (Рис.1), отображающая распределение белков генома по карманам длин.
Рис. 1. Гистограмма длин белков. По оси абсцисс отложены карманы длин белков в аминокислотах (АК), а по оси ординат количество белков, длины которых принадлежат этим карманам. По гистограмме длин белков можно заметить, что длины 60,4% белков выбранной бактерии попадают в промежуток от 60 до 380 аминокислот. Важно заметить, что максимальная длина белка составляет 11847 аминокислот для антипортера Na+/Ca2+ [III], [4]. Данный белок необходим для получения натрия из внешней среды и выведения кальция из клеток бактерии [6]. На солончаках он может работать более эффективно из-за повышенных концентраций натрия. В дальнейшем возможно провести исследование структуры этого белка для понимания принципов его работы и причин увеличения его размера относительно родственных белков. Например, длины Calx-domain содержащих белков родственного Neptuniibacter sp. были получена как ~8200 АК [7], так и ~11800 АК [8], что заставляет задуматься, как именно они выполняют свою функцию и по какой причине имеют такие различные размеры. Старт- и стоп- кодоны Neptuniibacter halophilus Важным элементом работы было исследование стартовых кодонов. 3.2.1 Старт-кодоны Была получена таблица, в которой приведены количества старт-кодонов нормальных генов и псевдогенов. Также были рассчитаны частоты встречаемости в процентах (см. листы cds_normal и cds_pseudo таблицы IV). Таб. 2. Таблица стартовых кодонов в геноме бактерии. Отсортирована по колонке All CDS от самых часто встречаемых к редким (или отсутствующим). Указано количество таких стартовых кодонов в геноме бактерии. Codons All CDS Pseudo CDS Normal CDS ATG 3310 10 3300 GTG 310 1 309 TTG 103 1 102 CTG 6 Not found 6 ATA 4 Not found 4 ATC 3 1 2 ATT 3 Not found 3 AAA 1 1 Not found AAC 1 1 Not found GCT 1 1 Not found CTT 1 1 Not found TAT 1 1 Not found Данная таблица (Таб.3) демонстрирует стартовые кодоны генов и псевдогенов в геноме Neptuniibacter halophilus. По ней можно увидеть, что Neptuniibacter halophilus имеет нормальный бактериальный набор старт-кодонов [3]. В свою очередь, псевдогены могут иметь как стартовые кодоны любые последовательности, поскольку не являются жизненно необходимыми для бактерии, по ним не проходит отрицательный отбор и мутации могут происходить беспрепятственно. 3.2.2 Стоп-кодоны Была получена таблица, в которой приведены количества стоп-кодонов нормальных генов и псевдогенов. Также были рассчитаны частоты встречаемости в процентах (см. листы cds_normal и cds_pseudo таблицы IV). Таб. 3. Таблица стартовых кодонов в геноме бактерии. Отсортирована по колонке All CDS от самых частовстречаемых к редким (или отсутствующим). Указано количество таких стартовых кодонов в геноме бактерии. Codons All CDS Pseudo CDS Normal CDS TGA 1639 43 1596 TAA 1677 5 1672 TAG 468 10 458 Важно отметить, что количество старт-кодонов для нормальных генов совпадает с количеством стоп-кодонов для них же (3726 шт.). Но для псевдогенов разница составила 40 стоп-кодонов, что в несколько раз больше общего количества псевдогенов. Скорее всего, это происходит по той же причине, по которой псевдогены утрачивают нормальные старт-кодоны. Мутации в псевдогенах не подвержены отрицательному отбору и закрепляются беспрепятственно, поэтому одному псевдогену может принадлежать несколько стоп-кодонов. Длины пересечений CDS на “+”-цепи в геноме Neptuniibacter halophilus Геномы бактерий имеют пересекающиеся CDS. Представляет интерес изучение их размеров и закономерностей, согласно которым они образуются. Таким образом, представляет интерес рассмотрение длины пересечений CDS и, к примеру, математическое описание длин, из которого можно определить их кратность трём (длине кодона). Ниже приведены гистограмма длин пересечений CDS, рассмотрение возможных длин пересечений до 6 и таблица остатков от деления на 3 для длин пересечений CDS генома Neptuniibacter halophilus. 3.3.1 Длины пересечений CDS на “+”-цепи В процессе работы получена гистограмма длин пересечений CDS на “+”-цепи с карманом 1 нт. Рис. 2. Гистограмма длин пересечений CDS на “+”-цепи. По оси абсцисс отложены карманы длин пересечений CDS в нуклеотидах (нт.), а по оси ординат количество длин пересечений генов, принадлежащие этим карманам (ниже 4 значений не найдено). Общее количество CDS на “+”-цепи составило 1777, пересекающихся со следующими на “+”-цепи – 324, процент таких CDS от всех на “+”-цепи составил 18,23%. Возможно, такие пересечения возникают из-за работы транспозонов и вирусов и закрепляются из-за пространственных ограничений генома бактерии (т.е. размера клетки, в которую необходимо поместить хромосому). Но в то же время, большая часть большая часть пересечений (52,4%) составляет 4 нуклеотида. Вероятно, более короткие пересечения CDS не так негативно сказываются на жизнеспособности бактерии, как это делают более длинные. Было выдвинуто предположение, что преобладание длин пересечений CDS, равных 4, возможно обосновать вероятностно. (см. раздел 3.3.3 Различные пересечения) 3.3.2 Длины пересечений CDS на “-”-цепи Рис. 3. Гистограмма длин пересечений CDS на “-”-цепи. По оси абсцисс отложены карманы длин пересечений CDS в нуклеотидах (нт.), а по оси ординат количество длин пересечений генов, принадлежащие этим карманам (ниже 4 значений не найдено). 3.3.3 Различные пересечения При более внимательном рассмотрении гистограмм (рис. 2,3) можно заметить, что длины пересечений CDS, кратные трём, равны нулю. Предположим, что это правильно для всех пересечений CDS и получим таблицу остатков от деления на три для всех CDS. Таб. 4. Остаток от деления на три для длин пересечений CDS в соответствии с количествами соответствующих пересечений. Остаток от деления длины пересечения CDS на 3, нт. Количество пересечений, шт. 0 0 1 199 2 135 Важно отметить, что в полученных данных не наблюдается остатков от деления на 3 равных нулю (т.е. не наблюдается пересечений CDS, длина которых кратна 3). Это связанно с тем, что при подобном пересечении в рамке считывания второго гена появится стоп-кодон первого, что приведёт к утрате продукта, кодируемого геном. Таким образом, по подобным вариациям может происходить отрицательный отбор, что приводит к их полному отсутствию в геноме бактерии. Рис. 3. Демонстрация различных пересечений для длин 1–5. Красными линиями отмечены пересечения, старт- и стоп-кодоны подписаны слева. Для пересечений CDS длиной 1 необходимо совпадение первого нуклеотида старт-кодона последнему нуклеотиду стоп-кодона. Это может происходить в 42,9% случаев [VI] – лист int_prob от всех возможных (с учётом вероятностей появления любого из старт- и стоп-кодонов). Для пересечений CDS длиной 2 и 3 необходимо чтобы вторая позиция старт-кодона (T) была той же, что и вторая или третья позиции стоп-кодона (G,C), что невозможно, так как они не имеют одинаковых нуклеотидов. Для пересечений CDS длиной 4 нуклеотида нужно соответствие второй позиции старт-кодона (T) и первой позиции стоп-кодона (T), что выполняется всегда, а также соответствие третьей позиции старт-кодона (A,T,G,C) второй позиции стоп-кодона (A,G), но это выполняется лишь в 28,6% случаев [VI] – лист int_1_prob. Для пересечений CDS длиной 5 требуется соответствие первой позиции стоп-кодона (T) последней позиции старт-кодона (A,T,G,C), что возможно в 14,3% случаев [VI] – лист int_1_prob. Прочие пересечения не учитывают соответствия нуклеотидов старт- и стоп-кодонов. Таким образом можно предположить, что длины пересечения генов, равные 4, хоть и менее вероятны при таком подсчёте, чем пересечения длиной 1, влияют на жизнедеятельность организмов менее всего и закрепляются проще, хотя генов без пересечений в геноме гораздо больше, и говорить о преимуществах пересечений CDS в такой ситуации будет странно. Важно также отметить, что пересекаются преимущественно CDS со сходной функцией, субъединицы или включённые в одни или схожие процессы (что можно увидеть на листе int_CDS_prot таблицы Intersecting_CDS[VI]). Возможно, это также заслуживает внимания в дальнейших работах. Можно предположить, что пересечения генов образуются вследствие работы транспозонов, но это также требует дальнейшего изучения.