Для выполнения этой работы требуется выбрать бактерий одного вида, но разных штаммов. Важно, чтобы геном был представлен одной полностью собранной хромосомой. Была выбрана бактерия Rhodococcus erythropolis, на мой взгляд достаточно интересная. Бактерия, привлекающая некоторое внимание в области биотехнологии, потому что устойчива к растворителям. Она содержит большой набор ферментов, позволяющих проводить окисление, дегидрирование, эпоксидирование, гидролиз, гидроксилирование, дегалогенирование и десульфуризацию. Таким образом, бактерия может иметь значительный потенциал в качестве биокатализатора, особенно в нетрадиционных системах. R. erythropolis может встречаться в природе в загрязненной окружающей среде, что позволяет использовать ее, например, для биоремедиации загрязненных участков. Обнаруживалась на поверхности здорового глаза человека (в образцах конъюнктивы). Известны случаи, когда штаммы данной бактерии вызывали менингиты и инфекции кровотока у людей с нарушениями иммунной системы [1] .
Итак, для загрузки и дальнейшего анализа геномов был подготовлен единственный входной файл genomes.tsv . Он также лежит в директории ~/term3/block2/credits/npg/genomes.tsv
Для построения НПГ воспользовались следующими командами:
npge Prepare > prepare.log- созданы и переименованы геномные последовательности (prepare.log)
npge Examine > examine.log- вычисление оценки сходства геномов (examine.log)
npge MakePangenome > make.log- построение НПГ (make.log)
npge PostProcessing > post.log- получение файлов с описанием пангенома (post.log)
Информацию о стабильном ядре можно найти в файле pangenome.info . Нуклеотидный пангеном включает в себя 713 стабильный блок (s-blocks), размер же нуклеотидного ядра (процент нуклеотидов в ядре от числа нуклеотидов во всех геномах) составляет 85.94%. Процент консервативных колонок в объединённом выравнивании s-блоков составляет 96.05%.
Для того, чтобы проследить делеции, мы воспользовались информацией из файла pangenome.bi, которая была переведена в формат .xls . . Будем искать полустабильные блоки. В Excel включаем фильтр на первую букву h в названии блока и сортируем по столбцу col в порядке убывания, чтобы найти самые длинные.
Штамм | Имя блока, подтверждающего делецию | Длина делеции | Имена выпавших генов |
X5 | h2x21065 | 21065 | Amidohydrolase Amino acid transporter ABC transporter substrate-binding protein Nitrilotriacetate monooxygenase Ketopantoate reductase ApbA/PanE Acetyl-/propionyl-CoA carboxylase subunit alpha MFS transporter G9444_1341 membrane protein ArsR family transcriptional regulator Putative hydrolase YxeP FAD-linked oxidase hypothetical protein |
R138 | h2x14406 | 14406 | Helix-turn-helix transcriptional regulator glycosyltransferase sugar transferase WecB/TagA/CpsF family glycosyltransferase hypothetical proteins glycosyltransferase family 2 protein polysaccharide pyruvyl transferase family lipopolysaccharide biosynthesis protein UDP-glucose/GDP-mannose dehydrogenase family |
KB1 | h2x13898 | 13898 | ABC transporter permease ABC transporter ATP-binding protein glycosyltran class I SAM-dependent methyltransferasesferase family 2 protein ribosome small subunit-dependent GTPase A class I SAM-dependent methyltransferase glycosyltransferase family 2 protein glycosyltransferase hypothetical protein acyl-ACP--UDP-N- acetylglucosamine flippase-like domain-containing protein dTDP-glucose 4,6-dehydratase |
Анализируя делеции, можно определить в каких штаммах пропала способность, например, к альтернативным путям синтеза важных биомолекул - у штамма Х5 выпал кусок, кодирующий Ketopantoate reductase ApbA/PanE. Фермент необходим для синтеза тиамина через альтернативный путь биосинтеза пиримидина. Так, анализируя делеции, можно понять на какой среде можно выращивать бактерий (если возможно культивировать), как лучше выстроить модель того или иного организма, какой штамм лучше подойдет для конкретной задачи.
Так же можно определить экологию бактерии. У штамма Х5 отсутствует Nitrilotriacetate monooxygenase, которая превращает нитрилотриацетат в глиоксилат. Значит скорее всего штамм обитает в среде без нитрилотриацетата, а еще это означает, что данный штамм не подойдет для очистки сточных вод от токсичного для человека NTA.
Интересно подметить, что у R138 отсутствует lipopolysaccharide biosynthesis - отвечает за синтез липополисахарид (ЛПС) является основным компонентом внешней мембраны грамотрицательных бактерий. Но как известно Rhodococcus - род грамположительной бактерии. Могу предположить, что в норме этого белка и не должно быть, а появился он у предка штаммов X5 или KB1 из-за горизонтального переноса или вируса. В общем, этот анализ действительно полезен не только для теоретических задач и построения деревьев, но и несет биотехнологическое значение.
Необходимую информацию для поиска синтении можно найти в файле blocks.blocks. Его содержимое было скопировано и переведено в .xls формат. От туда были удалены все столбцы, не содержащие g-блоков. Затем были покрашены одинаковым цветом совпадающие ячейки.
Ошибки в аннотации найти довольно-таки нетрудно - возьмём блок h2x220.В геноме штамма R138 указан ген, кодирующий diadenosine tetraphosphate hydrolase, однако у штамма X5 абсолютно такой же ген кодирует, судя по аннотации, HIT protein.Для более обоснованного вывода надо взять выборку побольше. Также встречаются случаи, когда в одном из геномов функция белка, кодируемого геном, указана, а в других ген относится к категории hypothetical. Примером может служить блок s3x1089 ген называется ferritin-like domain-containing protein, в двух других штаммах - hypothetical protein. Вероятно, аннотация изначально была hypothetical protein во всех трёх штаммах, однако в одном из них функцию белка удалось определить, а в остальных описание не поменяли.
Построение нуклеотидного пангенома - удобный способ проследить крупные эволюционные события в разных организмах, много интересного можно найти в полученных файлах, однако программа работает относительно долго (вероятно, зависит и от стабильности интернета). Во-вторых, интерпретируемый результат можно получить только при сравнении очень близких групп, при этом еще и ошибки в аннотациях будут путать. Увиденные глазами результаты сравнения нескольких штаммов бактерий показали, динамичность генома, частоту его престроек, некоторые из них могут иметь важное значение для человека (патогенность, устойчивость к антибиотикам, биотехнологии).