Мини-обзор генома бактерии Ancylobacter pratisalsi
Факультет биоинженерии и биоинформатики,
Московский Государственный Университет имени М. В. Ломоносова
Декабрь 2025
Данный мини-обзор представляет из себя работу с геномом бактерии Ancylobacter pratisalsi с использованием программирования на языке Python и функциональности электронных таблиц.
Ancylobacter pratisalsi — грамотрицательная аэробная и неподвижная бактерия из рода Ancylobacter, была выделена из ризосферной почвы подорожника зимнего (Plantago winteri Wirtg.) на естественном солончаковом лугу в рамках исследования ризосферных бактерий солеустойчивых видов растений и оценки их ростостимулирующих свойств. Клетки представляли собой палочки, неподвижные, аэробные [1].
Таксономическое положение [2]:
Данные о геноме Ancylobacter pratisalsi DSM 102029 были взяты с сайта NCBI Genomes [3]. Гистограммы распределения длин белков, распределения GC% состава и встречаемости аминокислот были построены с помощью MS Excel. С помощью языка Python 3.10 был проведен анализ кодирующих последовательностей генома для получения данных о GC-составе в различных белках и частоте встречаемости различных аминокислот. Для этого программой на языке python обходился файл в формате FASTA с последовательностями, кодирующими белки. Последовательность разбивалась на триплеты, создавался словарь, где ключом является аминокислота, определенная по таблице генетического кода, а значением — ее количество. На основе полученных данных была построена гистограмма с помощью MS Excel.
На основе CDS (англ. coding sequence) бактерии были найдены длины всех белков. На гистограмме представлена зависимость количества белков к диапазону соответствующей длины.
Рисунок 1. Гистограмма длин белков Ancylobacter pratisalsi
Из рисунка 1 видно, что наиболее часто встречаются белки в диапазоне 250–300. Длины 1682 из 4708 белков имеет длину в диапазоне от 250 до 400 аминокислот. Исходя из полученных данных можно сделать следующие выводы: вероятнее всего, белки данной бактерии не образуют сложные третичные структуры, можно предположить, что заметная часть белков относится к ферментам со схожими функциями. Разница длин белков может определяться различиями в активных центрах ферментов. Кроме того, ферменты необходимо быстро синтезировать, поэтому для них оптимальна короткая длинна белка, для обеспечения быстрого клеточного ответа.
На гистограмме представлена зависимость количества белков от диапазона значений GCсостава. Из рисунка 2 видно, что наибольшее количество белков имеет значение GC-состава в диапазоне 65,49–70,49.
Рисунок 2. Гистограмма GC-состава Ancylobacter pratisalsi
Высокий GC состав (65,49%–70,49%) коррелирует с тем, что местом обитания данной бактерии является корневая система травянистого растения, то есть верхние слои почвы. Из-за этого бактерия подвержена высокому УФ-излучению, для защиты от которого ей необходимы более прочные связи между комплементарными цепями ДНК.
Гистограмма отображает количество различных аминокислот в геноме бактерии Ancylobacter pratisalsi. Из рисунка 3 видно, что аланин встречается чаще других аминокислот. Вторые и третьи аминокислоты по встречаемости лейцин и глицин.
Рисунок 3. Гистограмма встречаемости аминокислот Ancylobacter pratisalsi
Эти аминокислоты не содержат заряженных полярных групп, что косвенно подтверждает отсутствие сложной третичной структуры. Кроме того, белки, в которых преобладают такие аминокислоты будут плохо растворятся в воде и могут быть мембранными белками. Кроме того белки из аминокислот, имеющих короткий неразветвленный аминокислотный остаток, будут иметь небольшой размер, приемлемый для секретирования.