Анализ генома бактерии Pseudorhizobium banfieldiae
Автор: Лиза Плешко
Аннотация
Бактерия Pseudorhizobium banfieldiae обладает рядом уникальных свойств. Она является хемолитоавтотрофом и получает энергию, окисляя арсенит до арсената. Это один из немногих примеров использования живыми организмами соединений мышьяка. Поэтому, изучение P. banfieldiae позволило сделать важные выводы об эволюции бактерий, занимающих уникальные, недоступные для других живых организмов экологические ниши. Кроме того, бактерию потенциально можно использовать для обезвреживания соединений мышьяка. В связи с этим, изучение P. banfieldiae имеет большое теоретическое и практическое значение. В ходе исследования были проанализированы последовательности всех молекул ДНК, входящих в состав генома P. banfieldiae, определены их длины и GC-состав. Оказалось, что он типичен для представителей семейства Rhizobiaceae, к которому относится исследуемый вид бактерии. Был проведен статистический анализ распределения длин белков, закодированных в геноме. Средняя длина составляет 311 аминокислотных остатков, медиана – 275. Также было изучено распределение генов по функциям. Всего в геном входит 8922 гена. Было показано, что они случайным образом распределены на прямой и комплементарной цепях ДНК. Было показано, что в геноме закодировано 17 белков, участвующих в метаболизме мышьяка и 541 гипотетический белок. Для сравнения было найдено количество генов, отвечающих за такие жизненно-важные функции, как синтез белка и транспорт веществ. Были найдены последовательности всех 17 генов, участвующих в метаболизме мышьяка. Было показано, что исследуемые белки составляют значительную часть протеома бактерии. Результаты свидетельствуют о большом значении мышьяка для P. banfieldiae и недостаточной ее изученности.Введение
Бактерия Pseudorhizobium banfieldiae NT-26 впервые была найдена в золотодобывающей шахте на севере Австралии. Она предоставляет собой грамотрицательную палочку с двумя жгутиками (рис. 1), [1].
Рисунок 1. Внешний вид Pseudorhizobium banfieldiae [1].
БактерияP. banfieldiae относится к семейству Rhizobiaceae. Микроорганизмы из этой группы занимают большой спектр экологических ниш. Многие из них обитают в почве, в частности, в ризосфере растений. В основном, они ведут сапротрофный образ жизни, разлагая мертвую органику и выделения растений, в том числе различные органические соединения. Некоторые из них также вступают с растениями в мутуалистические или паразитические отношения. К ним, например, относится фитопатогенная бактерия Rhizobium radiobacter, широко использующаяся в генной инженерии (рис. 2) [2]. Помимо этого, бактерии из семейства Rhizobiaceae встречаются в морской воде и субстратах, бедных питательными веществами или содержащих токсичные соединения. Среди них много хемолитоавтотрофов, способных получать энергию за счет окисления восстановленных соединений серы, таких как тиосульфат (S2O32 −) [2].
Рисунок 2. Систематика Rhizobiaceae [2].
Бактерия P. banfieldiae обладает уникальной способностью получать энергию из соединений мышьяка. Она окисляет арсенит (мышьяк в степени окисления +3) до арсената (мышьяк в степени окисления +5) при помощи фермента арсенитоксидазы. Большинство микроорганизмов, способных осуществлять эту реакцию, делают это в целях обезвреживания арсенита, так как трёхвалентный мышьяк более токсичен, чем пятивалентный. Ген арсенитоксидазы и другие гены, необходимые для окисления мышьяка, собраны в aio оперон, расположенный в специфичной для P. banfieldiae плазмиде [2]. При этом, P. banfieldiae также способна окислять соединения серы. Она обладает большим разнообразием цитохромов и других белков, участвующих в электрон-транспортной цепи [2]. В активном центре арсентоксидазы находится ион молибдена и два железосерных кластера. За счет окисления арсенита активный центр восстанавливается. После этого он взаимодействует с водой и снова переходит в окисленную форму, а выделившиеся при этом электроны передаются на железосерные кластеры и поступают на электрон-транспортную цепь, где они используются для синтеза АТФ (рис. 3) [3].
А. Б. В.Рисунок 3. Арсенитоксидаза. А - Ленточная модель [3]; Б – устройство активного центра [4]; В – каталитический механизм [3].
P. banfieldiae способна получать энергию исключительно окислением арсенита. В ее геноме присутствует несколько копий ars оперона, обеспечивающего устойчивость к мышьяку, а также гены белков-транспортеров, специфичных к фосфату. Они необходимы для того, чтобы вместе с фосфатом не поглощать похожий на него арсенат. Помимо мышьяка, бактерия также устойчива ко многим другим тяжелым металлам [2]. P. banfieldiae способна использовать углекислый газ в качестве единственного источника углерода, фиксируя его в цикле Кальвина. Это позволяет бактерии населять местообитания, где почти отсутствуют органические вещества, в том числе расти на поверхности минерала арсенопирита (FeAsS) [4]. Кроме того, P. banfieldiae может вести и гетеротрофный образ жизни. При этом она может разлагать трудноусваиваемые ароматические соединения, например, фенилацетат [2]. Виды, близкие к P. banfieldiae, могут окислять соединения серы и использовать фенилацетат в качестве источника углерода, однако они не способны окислять арсенит и фиксировать углекислый газ. У штамма P. banfieldiae ТСК есть цикл Кальвина, но также нет арсенитоксидазы. Поэтому предполагается, что в ходе эволюции предки P. banfieldiae сначала получили горизонтальным переносом гены, отвечающие за окисление тиосульфата и разложение фенилацетата. Это позволило им населять местообитания, бедные питательными веществами. Далее они приобрели гены цикла Кальвина, которые дали им дополнительное конкурентное преимущество. Потом, получив гены устойчивости к мышьяку, они смогли населять места, недоступные для других микроорганизмов. Наконец, в ходе естественного отбора они соединили процесс обезвреживания арсенита и хемоавтотрофного получения энергии (рис. 4) [2].
Рисунок 4. Появление различных признаков в ходе эволюции P. banfieldiae [2].
Изучение P. banfieldiae позволило сделать важные выводы о способности бактерий осваивать новые экологические ниши. Кроме того, способность бактерий обезвреживать соединения мышьяка можно использовать для биоремедиации загрязненных экосистем [5]. Поэтому изучение генома бактерии имеет большое практическое и теоретическое значение.
Методы и материалы
Для анализа использовалась последовательность генома бактерии из файла GCF_000967425.1_ASM96742v1_genomic.fna и таблица особенностей генома из файла GCF_000967425.1_ASM96742v1_feature_table.txt (сокращенно с помощью маски - *table*). Необходимые расчеты были проведены с помощью программ Bash, Excel и Python. Для подсчета длин последовательностей и GC-состава была написана программа на питоне gc_count (см. сопроводительные материалы). Для анализа распределения длин белков и построения гистограммы использовался Excel (ссылка на гугл-таблицу в сопроводительных материалах). Для анализа распределения генов по функциям использовался Bash. Для подсчета числа генов были написаны следующие команды:
Общее число генов:
tail -n +2 *table* |wc –l
Количество генов на прямой и комплементарной цепях:
tail -n +2 *table* |cut -f 10 |sort |uniq -c
Общее число белков, общее число РНК, количество транспортных и рибосомальных РНК:
tail -n +2 *table* |cut -f 1 |sort |uniq -c
Количество рибосомальных белков:
tail -n +2 *table* | cut -f 14 |grep -i 'ribosomal protein' |wc –l
Количество транспортных белков:
tail -n +2 *table* | cut -f 14 |grep -i 'transport' |wc –l
Количество гипотетических белков:
tail -n +2 *table* | cut -f 14 |grep -i 'hypothetical' |wc –l
Количество генов, связанных с метаболизмом мышьяка:
tail -n +2 *table* | cut -f 14 |grep -i 'arsen' |wc –l
Для вывода последовательностей генов, связанных с метаболизмом мышьяка, была написана программа на питоне proteins_print (см. сопроводительные материалы).
Для проверки гипотезы о том, что гены распределены по двум цепочкам ДНК случайно с вероятностями 0,5 использовался критерий Х2 Пирсона, был выбран уровень значимости 0,05. Расчет проводился по следующей формуле:
Результаты и обсуждение
Общие сведения о геноме
Геном P. banfieldiae состоит из одной хромосомы и двух плазмид. Для каждой из этих молекул ДНК был рассчитан GC-состав. Результаты, а также длины молекул, приведены в таблице 1.
Такой GC-состав типичен для представителей семейства Rhizobiaceae [6].
Анализ распределения длин белков
В ходе исследования были рассчитана средняя длина белков бактерии, стандартное отклонения и медиана. Также были найдены максимальная и минимальная длина белков. Результаты приведены в таблице 2. Гистограмма распределения длин показана на рисунке 5.
Рисунок 5. Гистограмма распределения длин белков
Анализ распределения генов по функциям
Было найдено количество белков, участвующих в метаболизме мышьяка и количество гипотетических белков, то есть белков с неизвестной функцией, и их доля от общего количества белков. Это 17 (0,4%) и 541 (12,3%) соответственно. Для сравнения было посчитано количество генов, отвечающих за такие жизненно важные функции, как синтез белка и транспорт, а именно генов рибосомальных и транспортных белков, рРНК и тРНК. Оказалось, что генов, отвечающих за метаболизм мышьяка почти в 2 раза больше, чем генов рибосомальных РНК. Это еще раз свидетельствует о значимости мышьяка для P. banfieldiae. Также было показано, что гипотетических белков почти столько же, сколько транспортных. Это говорит о том, что геном P. banfieldiae изучен недостаточно. Учитывая уникальные особенности бактерии, разумно предположить, что среди неизвестных последовательностей могут быть найдены новые гены с необычными свойствами.
Последовательности генов, участвующих в метаболизме мышьяка, записаны в файл dnas_of_proteins (см. сопроводительные материалы). В последовательностях иногда присутствуют разрывы и отсутствуют старт-кодоны. Возможно, результат является недостаточно точным и программа нуждается в доработке.
Был рассчитан критерий Х2 Пирсона для распределения генов на прямой и комплементарной цепях:
Х2 = (8922*0,5 – 4512)2/4512 + (8922*0,5 – 4410)2/4410 = 1,17
Количество степеней свободы – 1, уровень значимости 0,05. Критическое значение Х2 для этих значений – 3,84 > 1,17. Это значит, что гипотезу о случайном распределении генов на разных цепях можно принять.
Заключение
В ходе исследования были рассчитаны длины и GC-состав хромосомы и двух плазмид, входящих в состав генома бактерии Pseudorhizobium banfieldiae. Найденный GC-состав обычен для семейства Rhizobiaceae, к которому относится бактерия. Была подтверждена гипотеза о случайном распределении генов на двух комплементарных цепях ДНК. Был проведен статистческий анализ длин белков и сравнительный анализ распределения генов по функциям. Было показано, что в геном бактерии входит значительное количество генов, отвечающих за метаболизм мышьяка, что подтверждает важность этого элемента для жизни P. banfieldiae. Были найдены последовательности всех этих генов. Также было показано, что в геноме присутствует большое количество гипотетических генов, что свидетельствует о недостаточной изученности бактерии. P. banfieldiae обладает рядом уникальных свойств и ее изучение позволило сделать важные выводы об эволюции бактерий. Кроме того, ее потенциально можно использовать для обезвреживания соединений мышьяка. Поэтому дальнейшие исследования, направленные на выяснение функций неизвестных белков, имеют большое практическое и теоретическое значение.
Сопроводительные материалы
Таблица особенностей генома:
/home/students/y22/liza-p/term1/genome/GCF_000967425.1_ASM96742v1_feature_table.txt
Последовательность ДНК:
/home/students/y22/liza-p/term1/genome/GCF_000967425.1_ASM96742v1_genomic.fna
Программа для подсчета GC-состава:
/home/students/y22/liza-p/term1/genome/gc_count
Программа для поиска последовательностей генов, отвечающих за метаболизм мышьяка:
/home/students/y22/liza-p/term1/genome/proteins_print
Последовательности генов, участвующих в метаболизме мышьяка:
/home/students/y22/liza-p/term1/genome/dnas_of_proteins
Гугл-таблица с гистограммой и статистическим анализом:
https://docs.google.com/spreadsheets/d/1PrVSsZ3fOfdTIfQIUAUwXnT9vpG4VMmcbWfpVisRNU8/edit?usp=sharing
Цитируемая литература
- Santini, J. M., Sly, L. I., Schnagl, R. D., and Macy, J. M. (2000) A new chemolithoautotrophic arsenite-oxidizing bacterium isolated from a gold mine: Phylogenetic, physiological, and preliminary biochemical studies, Appl. EnViron. Microbiol. 66, 92-97.
- Lassalle, F., Dastgheib, S.M.M., Zhao, F.-J., Zhang, J., Verbarg, S., Frühling, A., Brinkmann, H., Osborne, T.H., Sikorski, J., Balloux, F., Didelot, X., Santini, J.M., and Petersen, J. "Phylogenomics reveals the basis of adaptation of Pseudorhizobium species to extreme environments and supports a taxonomic revision of the genus." Syst. Appl. Microbiol. (2021) 44(1):126165.
- Ellis, P. J., Conrads, T., Hille, R., & Kuhn, P. (2001). Crystal Structure of the 100 kDa Arsenite Oxidase from Alcaligenes faecalis in Two Crystal Forms at 1.64 Å and 2.03 Å. Structure, 9(2), 125–132. doi:10.1016/s0969-2126(01)00566-4
- Bernhardt, P. V., & Santini, J. M. (2006). Protein Film Voltammetry of Arsenite Oxidase from the Chemolithoautotrophic Arsenite-Oxidizing Bacterium NT-26†. Biochemistry, 45(9), 2804–2809. doi:10.1021/bi0522448
- Kanika Khanna, Sukhmeen Kaur Kohli, Pankaj Kumar, Puja Ohri, Renu Bhardwaj. Arsenic as hazardous pollutant: Perspectives on engineering remediation tools (англ.) // Science of The Total Environment. — 2022-09-10. — Vol. 838. — P. 155870. — ISSN 0048-9697. — doi:10.1016/j.scitotenv.2022.155870.
- Nemanja Kuzmanović, Camilla Fagorzi, Alessio Mengoni, Florent Lassalle, George C. diCenzo. Taxonomy of Rhizobiaceae revisited: proposal of a new framework for genus delimitation (англ.). — 2021-08-03. — P. 2021.08.02.454807. — doi:10.1101/2021.08.02.454807v1.full.