Селифонов (slfn) учебный сайт; Обо мне

Мини-обзор генома археи Ignicoccus islandicus DSM 13165

РЕЗЮМЕ

В данной работе представлены результаты исследования генома и протеома археи Ignicoccus islandicus DSM 13165. Были определены общие характеристики генома, проведен поиск повторяющихся участков различной длины. На основе данных из хромосомной таблицы была построена гистограмма, характеризующая распределение белков по длине, было определено количество рибососомальных белков археи.

ВВЕДЕНИЕ

Фото археи
Рис. 1. Электронная микрофотография клетки археи Ignicoccus islandicus DSM 13165

Ignicoccus islandicus DSM 13165 – гипертермофильная архея из рода Ignicoccus, входящего в семейство Desulfurococcaceae, которое является частью типа Crenarchaeota. Данный штамм был впервые выделен из донных отложений в районе гидротермальных источников в северной части Атлантического океана. Это облигатно анаэробные археи с хемолитоавтотрофным типом питания. Они используют молекулярный водород в качестве донора электронов для электрон-транспортной цепи и серу в качестве конечного акцептора (Burggraf et al., 2000). По данным ряда исследований, в покровах архей рода Ignicoccus присутствует дополнительная внешняя мембрана, сходная с аналогичной структурой грамотрицательных бактерий и впервые описанная у архей (Huber et al., 2002). Интересно также, что малатдегидрогеназа I. Islandicus может использовать в качестве субстрата молочную кислоту. Учитывая, что малатдегидрогеназа и лактатдегидрогеназа являются гомологами, возможно, данная архея обладает эволюционно древней версией этого фермента с двойной субстратной специфичностью (Roche et al., 2019). Дальнейшее изучение генома I. Islandicus могло бы пролить свет на эволюцию метаболических путей у древних прокариот.

МАТЕРИАЛЫ И МЕТОДЫ

В качестве материалов использовальзовались хромосомная таблица (tsv) археи Ignicoccus islandicus DSM 13165 и последовательность ее генома в формате fasta. Оба файла были скачаны по данной ссылке.

Для получения результатов работы были использованы функции электронных таблиц Google Sheets, а также программы, написанные на языке Python в Google Colaboratory. Общие сведения о геноме были получены с помощью программы AboutGenome. Для получения данных Табл. 1 использовалась программа Nucleotides. Количества и cb различных k-меров (как и cb длинного повтора) были определены с помощью программы K-merCount+, в которую встроен “фильтр” по числу встреч. Результаты ее работы использовались для построения Табл. 2 и гистограммы Рис. 1 (все гистограммы строились в электронных таблицах). Длинный повтор был найден путем применения программ KmerCount и MaxRepeats. При этом первая использовалась для примерного, а вторая - для точного определения максимальной длины повтора. Для нахождения координат его начала и конца использовалась программа FindSeq, а положение повтора относительно других участков ДНК было определено вручную по хромосомной таблице. На ее основе был также создан Рис. 2. Количество рибосомальных белков и их генов было найдено с помощью программы RProteins.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Общие сведения о геноме, нуклеотидный состав.

Геном Ignicoccus islandicus DSM 13165 представлен единственной хромосомой (NZ_CP006867.1) и состоит из 1394664 пар нуклеотидов, примерно 44,9% которых содержат в качестве азотистого основания гуанин или цитозин. Последовательность генома образована только 4 нуклеотидами (A, T, G, C), при этом для нее выполняется второе правило Чаргаффа, то есть количество тиминовых нуклеотидов примерно равно количеству адениновых, а число гуаниновых - числу цитозиновых (Табл. 1).

Табл. 1. Количество различных нуклеотидов в геноме археи
Нуклеотидный состав

Анализ статистики гексамеров в геноме.

Для анализа был выбран размер фрагментов, равный 6 нуклеотидам. Для каждого гексамера было определено число встреч в геноме, а также значение Combinational Bias. Полностью результаты представлены в электронной таблице (см. раздел Сопроводительные материалы). Наименьшее значение параметра составляет 0,15, тогда как наибольшее - 3,84. По построенной гистограмме cb 6-меров (Рис. 2) видно, что для большинства из них значение cb находится в пределах 0,41 - 1,2, а для остальных его значение обычно больше. Таким образом, хотя пик полученного распределения почти соответствует cb = 1, многие гексамеры встречаются в геноме гораздо чаще ожидаемого, и их наличие нельзя объяснить случайностью. Возможно, некоторые из них, располагаясь в последовательностях генов, кодируют частые встречающиеся в различных белках или повторяющиеся фрагменты из 2 аминокислотных остатков. Эти гексамеры могут также быть частью повторов в межгенных участках.

Гистограмма Combinational Bias
Рис. 2. Гистограмма Combinational Bias гексамеров

Также были найдены гексамеры с экстремальными значениями cb (Табл. 2).

Табл. 2. Количество встреч и cb самых частых и самых редких гексамеров
Количество встреч и cb гексамеров

Самые часто встречающиеся 6-меры могут выделяться из более крупных повторяющихся участков ДНК. В таком случае, при увеличении длины искомых фрагментов самые частые из них будут содержать в себе найденные гексамеры. Это в целом подтверждается для фрагментов длиной в 7 нуклеотидов (например, CTTCCTT встречается в геноме 506 раз) и лишь иногда верно для 8-меров (CTTCCTTC встречается всего лишь 160 раз, а ACTTCCTT - 163 раза, для других число встреч еще меньше). Можно сделать вывод, что найденные гексамеры скорее являются достаточно короткими ди- или тринуклеотидными повторами в межгенных участках или же входят в состав генов и кодируют наиболее частые последовательности из 2 аминокислот.

Поиск длинных повторяющихся участков генома.

При наличии в геноме очень длинных повторов применение используемого в данной работе метода для поиска и подсчета повторов меньшей длины приводит к многократному засчитыванию небольших участков этих крупных повторов. Поэтому практический интерес имеет поиск повторов наибольшей длины, встречающихся в геноме не менее определенного числа раз. С целью нахождения самых длинных повторяющихся участков было выбрано минимальное число встреч, равное 2.

Длина найденного повтора составила 369 п. н., его полная последовательность такова:

5’-CTTTAACCGAAGAGGGCTCCCAAGCCGGCTGAGAGCTCC TCCTCGCTCACTTCCTCCTTCTTCTCTTCCTCTTCCTCCTT CTCTTCCTTCTTCTCCTCAGCAGCCGGAGCAGCTGCCGGG GCGGCTACTGGAGCTGCAGCCACTGGCAAGGCCGCGCTC TTCAATACCTCGTCAATGTTCACTTCCTTCAAGGCGGCTA CCAATGCCTTTACCCTGGTCTCGTCCACTTGAACTCCTGC CGCCTCTAGGACCTTCTTTATTGCCTCCTCGGTTATCTCCT TACCGGCGCTATGGAGCAAGAGGGAAGCGTATATGTACT CCATCGTTCCACCGACTGATAAAGGCAGATAGATGGATT AAAATGGGTTC-3’

Значение cb для этого участка ДНК составило 4,76·10218, хотя в данном случае очевидно, что его повторение не является случайным. В геноме Ignicoccus islandicus DSM 13165 данная последовательность повторяется всего 2 раза, начиная с 331369-го и с 969337-го нуклеотидов. Причем в обоих случаях она полностью включает в себя ген rpl12p, кодирующий 50S рибосомальный белкок P1 (он, в свою очередь, располагается от 331371-го до 331691-го и с 969339-го по 969659-й нуклеотид). Этот белок широко распространен у архей и эукариот и принадлежит к семейству эукариотических рибосомальных белков P1/P2. Фосфопротеины P1 и P2 у эукариот являются частью большой субъединицы рибосомы, где они формируют гетеродимер в области сайта ГТФ-азной активности. Эти белки играют роль в сборке соответствующего участка рибосомы и во взаимодействии с факторами трансляции (Naganuma et al., 2007). Наличие у исследуемой археи 2 идентичных копий гена rpl12p может говорить как о его важности и высокой чувствительности к мутациям, так и об относительно недавнем возникновении одной из копий. В любом случае, механизм этого процесса остается неясным.

Количество и доля генов рибосомальных белков.

Используемый метод поиска повторов в геноме позволил выявить лишь полностью идентичные участки. Поэтому встает вопрос об определении общего количества генов рибосомальных белков и количества “неидеальных” копий каждого из них, а также их доли от общего числа белоккодирующих генов. Количество генов, кодирующих белки, в геноме археи составило 1495, из них 64 гена (примерно 4,28% от общего числа) кодируют рибосомальные белки. Однако в протеоме археи присутствует лишь 62 различных рибосомальных белка, так как белки P1 и L24 кодируются двумя генами каждый. Таким образом, почти каждый из рибосомальных белков Ignicoccus islandicus DSM 13165 кодируется только одним геном, а найденная ранее копия гена rpl12p является скорее исключением из общего правила.

Гистограмма длин белков.

С целью определения характера распределения белков археи по длинам аминокислотных последовательностей была построена гистограмма длин белков (Рис. 3). Величина кармана диаграммы составляет 40 аминокислотных остатков. По представленной гистограмме видно, что большинство белков Ignicoccus islandicus DSM 13165 имеет длину от 40 до 320 аминокислотных остатков, однако имеется и значительное количество белков большей длины. Средняя длина белка для исследуемой археи оказалась равной 279, что согласуется с установленным для всех архей значением в 283 аминокислоты (Tiessen et al., 2012). Самый короткий белок состоит из 31 аминокислот (белок-антитоксин). Самый длинный белок, существование которого доказано, а функция определена, принадлежит к семейству молибдоптерин оксидоредуктаз и образован 3141 аминокислотным остатком.

Распределение белков по длине
Рис. 3. Распределение белков археи по длине.

ЗАКЛЮЧЕНИЕ

Несмотря на то что археи представляют собой очень важную группу с точки зрения эволюции живых организмов на Земле, во многом они остаются плохо исследованными, и для получения ответа на многие возникающие вопросы необходимо дальнейшее изучение этих организмов.

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

СПИСОК ЛИТЕРАТУРЫ

Burggraf S., Huber H., Mayer T., Rachel R., Stetter K.O. and Wyschkony I. (2000) Ignicoccus gen. nov., a novel genus of hyperthermophilic, chemolithoautotrophic Archaea, represented by two new species, Ignicoccus islandicus sp. nov. and Ignicoccus pacificus sp. nov. International Journal of Systematic and Evolutionary Microbiology, 50, 2093–2100.

Huber H., Rachel R., Riehl S. and Wyschkony I. (2002) The ultrastructure of Ignicoccus: Evidence for a novel outer membrane and for intracellular vesicle budding in an archaeon. Archaea, 1, 9–18.

Roche, J., Girard, E., Mas, C., Madern, D. (2018) The archaeal LDH-like malate dehydrogenase from Ignicoccus islandicus displays dual substrate recognition, hidden allostery and a non-canonical tetrameric oligomeric organization. Journal of Structural Biology, 208, 7–17.

Naganuma, T., Shiogama, K., & Uchiumi, T. (2007). The N-terminal regions of eukaryotic acidic phosphoproteins P1 and P2 are crucial for heterodimerization and assembly into the ribosomal GTPase-associated center. Genes to cells : devoted to molecular & cellular mechanisms, 12(4), 501–510.

Tiessen, A., Pérez-Rodríguez, P. & Delaye-Arredondo, L.J. (2012) Mathematical modeling and comparison of protein size distribution in different plant, animal, fungal and microbial species reveals a negative correlation between protein size and protein number, thus providing insight into the evolution of proteomes. BMC Res Notes 5, 85.