Выравнивание геномов¶

Чтобы разобраться в крупных геномных перестройках, а значит и в эволюции организмов, нужно научиться работать с пангеномами, а именно построить пангеном в специальной программе, выровнять геномы и проанолизировать крупные эволюционные события. Этим и займемся :)¶

Выбираем бактерий¶

Для выполнения этой работы требуется выбрать бактерий одного вида, но разных штаммов. Важно, чтобы геном был представлен одной полностью собранной хромосомой. Была выбрана бактерия Rhodococcus erythropolis, на мой взгляд достаточно интересная. Бактерия, привлекающая некоторое внимание в области биотехнологии, потому что устойчива к растворителям. Она содержит большой набор ферментов, позволяющих проводить окисление, дегидрирование, эпоксидирование, гидролиз, гидроксилирование, дегалогенирование и десульфуризацию. Таким образом, бактерия может иметь значительный потенциал в качестве биокатализатора, особенно в нетрадиционных системах. R. erythropolis может встречаться в природе в загрязненной окружающей среде, что позволяет использовать ее, например, для биоремедиации загрязненных участков. Обнаруживалась на поверхности здорового глаза человека (в образцах конъюнктивы). Известны случаи, когда штаммы данной бактерии вызывали менингиты и инфекции кровотока у людей с нарушениями иммунной системы [1] .

Итак, для загрузки и дальнейшего анализа геномов был подготовлен единственный входной файл genomes.tsv . Он также лежит в директории ~/term3/block2/credits/npg/genomes.tsv

Построение нуклеотидного пангенома с помощью NPG-explorer¶

Для построения НПГ воспользовались следующими командами:

npge Prepare > prepare.log

- созданы и переименованы геномные последовательности (prepare.log)

npge Examine > examine.log

- вычисление оценки сходства геномов (examine.log)

npge MakePangenome > make.log

- построение НПГ (make.log)

npge PostProcessing > post.log

- получение файлов с описанием пангенома (post.log)

Описание стабильного ядра нуклеотидного пангенома¶

Информацию о стабильном ядре можно найти в файле pangenome.info . Нуклеотидный пангеном включает в себя 713 стабильный блок (s-blocks), размер же нуклеотидного ядра (процент нуклеотидов в ядре от числа нуклеотидов во всех геномах) составляет 85.94%. Процент консервативных колонок в объединённом выравнивании s-блоков составляет 96.05%.

Описание самой крупной делеции в каждом геноме¶

Для того, чтобы проследить делеции, мы воспользовались информацией из файла pangenome.bi, которая была переведена в формат .xls . . Будем искать полустабильные блоки. В Excel включаем фильтр на первую букву h в названии блока и сортируем по столбцу col в порядке убывания, чтобы найти самые длинные.

%D0%91%D0%B5%D0%B7%20%D0%BD%D0%B0%D0%B7%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%282%29.png

Штамм	Имя блока, подтверждающего делецию	Длина делеции	Имена выпавших генов
X5	h2x21065	21065	Amidohydrolase Amino acid transporter ABC transporter substrate-binding protein Nitrilotriacetate monooxygenase Ketopantoate reductase ApbA/PanE Acetyl-/propionyl-CoA carboxylase subunit alpha MFS transporter G9444_1341 membrane protein ArsR family transcriptional regulator Putative hydrolase YxeP FAD-linked oxidase hypothetical protein
R138	h2x14406	14406	Helix-turn-helix transcriptional regulator glycosyltransferase sugar transferase WecB/TagA/CpsF family glycosyltransferase hypothetical proteins glycosyltransferase family 2 protein polysaccharide pyruvyl transferase family lipopolysaccharide biosynthesis protein UDP-glucose/GDP-mannose dehydrogenase family
KB1	h2x13898	13898	ABC transporter permease ABC transporter ATP-binding protein glycosyltran class I SAM-dependent methyltransferasesferase family 2 protein ribosome small subunit-dependent GTPase A class I SAM-dependent methyltransferase glycosyltransferase family 2 protein glycosyltransferase hypothetical protein acyl-ACP--UDP-N- acetylglucosamine flippase-like domain-containing protein dTDP-glucose 4,6-dehydratase

Некоторые рассуждения.¶

Анализируя делеции, можно определить в каких штаммах пропала способность, например, к альтернативным путям синтеза важных биомолекул - у штамма Х5 выпал кусок, кодирующий Ketopantoate reductase ApbA/PanE. Фермент необходим для синтеза тиамина через альтернативный путь биосинтеза пиримидина. Так, анализируя делеции, можно понять на какой среде можно выращивать бактерий (если возможно культивировать), как лучше выстроить модель того или иного организма, какой штамм лучше подойдет для конкретной задачи.

Так же можно определить экологию бактерии. У штамма Х5 отсутствует Nitrilotriacetate monooxygenase, которая превращает нитрилотриацетат в глиоксилат. Значит скорее всего штамм обитает в среде без нитрилотриацетата, а еще это означает, что данный штамм не подойдет для очистки сточных вод от токсичного для человека NTA.

Интересно подметить, что у R138 отсутствует lipopolysaccharide biosynthesis - отвечает за синтез липополисахарид (ЛПС) является основным компонентом внешней мембраны грамотрицательных бактерий. Но как известно Rhodococcus - род грамположительной бактерии. Могу предположить, что в норме этого белка и не должно быть, а появился он у предка штаммов X5 или KB1 из-за горизонтального переноса или вируса. В общем, этот анализ действительно полезен не только для теоретических задач и построения деревьев, но и несет биотехнологическое значение.

Описание перестановки синтений (g-блоков) в одном или нескольких геномах¶

Необходимую информацию для поиска синтении можно найти в файле blocks.blocks. Его содержимое было скопировано и переведено в .xls формат. От туда были удалены все столбцы, не содержащие g-блоков. Затем были покрашены одинаковым цветом совпадающие ячейки.

Консервативные блоки (окрашены в более яркие цвета): g3x145590, g3x1100686, g3x1844734, g3x1673116, g3x753303, g3x60021, g3x1089, g3x1058, g3x26935, g3x291020¶

Ниже найдены хорошие примеры перестановки g-блоков (g3x42657, g3x1009 ):¶

pr10_blocks%20%281%29.png

Ошибки в аннотации¶

Ошибки в аннотации найти довольно-таки нетрудно - возьмём блок h2x220.В геноме штамма R138 указан ген, кодирующий diadenosine tetraphosphate hydrolase, однако у штамма X5 абсолютно такой же ген кодирует, судя по аннотации, HIT protein.Для более обоснованного вывода надо взять выборку побольше. Также встречаются случаи, когда в одном из геномов функция белка, кодируемого геном, указана, а в других ген относится к категории hypothetical. Примером может служить блок s3x1089 ген называется ferritin-like domain-containing protein, в двух других штаммах - hypothetical protein. Вероятно, аннотация изначально была hypothetical protein во всех трёх штаммах, однако в одном из них функцию белка удалось определить, а в остальных описание не поменяли.

Заключение¶

Построение нуклеотидного пангенома - удобный способ проследить крупные эволюционные события в разных организмах, много интересного можно найти в полученных файлах, однако программа работает относительно долго (вероятно, зависит и от стабильности интернета). Во-вторых, интерпретируемый результат можно получить только при сравнении очень близких групп, при этом еще и ошибки в аннотациях будут путать. Увиденные глазами результаты сравнения нескольких штаммов бактерий показали, динамичность генома, частоту его престроек, некоторые из них могут иметь важное значение для человека (патогенность, устойчивость к антибиотикам, биотехнологии).