Выравнивание геномов

Чтобы разобраться в крупных геномных перестройках, а значит и в эволюции организмов, нужно научиться работать с пангеномами, а именно построить пангеном в специальной программе, выровнять геномы и проанолизировать крупные эволюционные события. Этим и займемся :)

Выбираем бактерий

Для выполнения этой работы требуется выбрать бактерий одного вида, но разных штаммов. Важно, чтобы геном был представлен одной полностью собранной хромосомой. Была выбрана бактерия Rhodococcus erythropolis, на мой взгляд достаточно интересная. Бактерия, привлекающая некоторое внимание в области биотехнологии, потому что устойчива к растворителям. Она содержит большой набор ферментов, позволяющих проводить окисление, дегидрирование, эпоксидирование, гидролиз, гидроксилирование, дегалогенирование и десульфуризацию. Таким образом, бактерия может иметь значительный потенциал в качестве биокатализатора, особенно в нетрадиционных системах. R. erythropolis может встречаться в природе в загрязненной окружающей среде, что позволяет использовать ее, например, для биоремедиации загрязненных участков. Обнаруживалась на поверхности здорового глаза человека (в образцах конъюнктивы). Известны случаи, когда штаммы данной бактерии вызывали менингиты и инфекции кровотока у людей с нарушениями иммунной системы [1] .

Итак, для загрузки и дальнейшего анализа геномов был подготовлен единственный входной файл genomes.tsv . Он также лежит в директории ~/term3/block2/credits/npg/genomes.tsv

Построение нуклеотидного пангенома с помощью NPG-explorer

Для построения НПГ воспользовались следующими командами:

npge Prepare > prepare.log
- созданы и переименованы геномные последовательности (prepare.log)

npge Examine > examine.log
- вычисление оценки сходства геномов (examine.log)

npge MakePangenome > make.log
- построение НПГ (make.log)

npge PostProcessing > post.log
- получение файлов с описанием пангенома (post.log)

Описание стабильного ядра нуклеотидного пангенома

Информацию о стабильном ядре можно найти в файле pangenome.info . Нуклеотидный пангеном включает в себя 713 стабильный блок (s-blocks), размер же нуклеотидного ядра (процент нуклеотидов в ядре от числа нуклеотидов во всех геномах) составляет 85.94%. Процент консервативных колонок в объединённом выравнивании s-блоков составляет 96.05%.

Описание самой крупной делеции в каждом геноме

Для того, чтобы проследить делеции, мы воспользовались информацией из файла pangenome.bi, которая была переведена в формат .xls . . Будем искать полустабильные блоки. В Excel включаем фильтр на первую букву h в названии блока и сортируем по столбцу col в порядке убывания, чтобы найти самые длинные.

%D0%91%D0%B5%D0%B7%20%D0%BD%D0%B0%D0%B7%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%282%29.png

Штамм Имя блока, подтверждающего делецию Длина делеции Имена выпавших генов
X5 h2x21065 21065 Amidohydrolase
Amino acid transporter
ABC transporter substrate-binding protein
Nitrilotriacetate monooxygenase
Ketopantoate reductase ApbA/PanE
Acetyl-/propionyl-CoA carboxylase subunit alpha
MFS transporter
G9444_1341 membrane protein
ArsR family transcriptional regulator
Putative hydrolase YxeP
FAD-linked oxidase
hypothetical protein
R138 h2x14406 14406 Helix-turn-helix transcriptional regulator
glycosyltransferase
sugar transferase
WecB/TagA/CpsF family glycosyltransferase
hypothetical proteins
glycosyltransferase family 2 protein
polysaccharide pyruvyl transferase family
lipopolysaccharide biosynthesis protein
UDP-glucose/GDP-mannose dehydrogenase family
KB1 h2x13898 13898 ABC transporter permease
ABC transporter ATP-binding protein
glycosyltran class I SAM-dependent methyltransferasesferase family 2 protein
ribosome small subunit-dependent GTPase A
class I SAM-dependent methyltransferase
glycosyltransferase family 2 protein
glycosyltransferase
hypothetical protein
acyl-ACP--UDP-N- acetylglucosamine
flippase-like domain-containing protein
dTDP-glucose 4,6-dehydratase
Некоторые рассуждения.

Анализируя делеции, можно определить в каких штаммах пропала способность, например, к альтернативным путям синтеза важных биомолекул - у штамма Х5 выпал кусок, кодирующий Ketopantoate reductase ApbA/PanE. Фермент необходим для синтеза тиамина через альтернативный путь биосинтеза пиримидина. Так, анализируя делеции, можно понять на какой среде можно выращивать бактерий (если возможно культивировать), как лучше выстроить модель того или иного организма, какой штамм лучше подойдет для конкретной задачи.

Так же можно определить экологию бактерии. У штамма Х5 отсутствует Nitrilotriacetate monooxygenase, которая превращает нитрилотриацетат в глиоксилат. Значит скорее всего штамм обитает в среде без нитрилотриацетата, а еще это означает, что данный штамм не подойдет для очистки сточных вод от токсичного для человека NTA.

Интересно подметить, что у R138 отсутствует lipopolysaccharide biosynthesis - отвечает за синтез липополисахарид (ЛПС) является основным компонентом внешней мембраны грамотрицательных бактерий. Но как известно Rhodococcus - род грамположительной бактерии. Могу предположить, что в норме этого белка и не должно быть, а появился он у предка штаммов X5 или KB1 из-за горизонтального переноса или вируса. В общем, этот анализ действительно полезен не только для теоретических задач и построения деревьев, но и несет биотехнологическое значение.

Описание перестановки синтений (g-блоков) в одном или нескольких геномах

Необходимую информацию для поиска синтении можно найти в файле blocks.blocks. Его содержимое было скопировано и переведено в .xls формат. От туда были удалены все столбцы, не содержащие g-блоков. Затем были покрашены одинаковым цветом совпадающие ячейки.

Консервативные блоки (окрашены в более яркие цвета): g3x145590, g3x1100686, g3x1844734, g3x1673116, g3x753303, g3x60021, g3x1089, g3x1058, g3x26935, g3x291020
Ниже найдены хорошие примеры перестановки g-блоков (g3x42657, g3x1009 ):

pr10_blocks%20%281%29.png

Ошибки в аннотации

Ошибки в аннотации найти довольно-таки нетрудно - возьмём блок h2x220.В геноме штамма R138 указан ген, кодирующий diadenosine tetraphosphate hydrolase, однако у штамма X5 абсолютно такой же ген кодирует, судя по аннотации, HIT protein.Для более обоснованного вывода надо взять выборку побольше. Также встречаются случаи, когда в одном из геномов функция белка, кодируемого геном, указана, а в других ген относится к категории hypothetical. Примером может служить блок s3x1089 ген называется ferritin-like domain-containing protein, в двух других штаммах - hypothetical protein. Вероятно, аннотация изначально была hypothetical protein во всех трёх штаммах, однако в одном из них функцию белка удалось определить, а в остальных описание не поменяли.

Заключение

Построение нуклеотидного пангенома - удобный способ проследить крупные эволюционные события в разных организмах, много интересного можно найти в полученных файлах, однако программа работает относительно долго (вероятно, зависит и от стабильности интернета). Во-вторых, интерпретируемый результат можно получить только при сравнении очень близких групп, при этом еще и ошибки в аннотациях будут путать. Увиденные глазами результаты сравнения нескольких штаммов бактерий показали, динамичность генома, частоту его престроек, некоторые из них могут иметь важное значение для человека (патогенность, устойчивость к антибиотикам, биотехнологии).