Практикум 8. Выравнивание геномов
В ходе этого практикума для четырёх штаммов бактерии Xanthomonas oryzae был построен (и в некоторой степени проанализирован) нуклеотидный пангеном.
Построение нуклеотидного пангенома
Для этой цели была использована программа NPG-explorer под Windows 10. В рабочей папке был создан файл genomes.tsv, содержащий входные данные, после чего выполнена цепочка команд, собранных в .bat-файл. Для всех команд выдача в консоль перенаправлялась в log-файлы.
Описание выполненных команд (и логи их выполнения):
npge Prepare - скачивает и переименовывает указанные в genomes.tsv геномные последовательности
(log_prepare.log)
npge Examine - оценивает сходство геномов и создаёт файл examine/identity_recommended.txt (но в итоге я не прислушался к рекомендациям и оставил MIN_IDENTITY по умолчанию, поэтому
выполнять эту команду было необязательно)
(log_examine.log)
npge MakePangenome - собственно строит нуклеотидный пангеном, наиболее вычислительно затратная стадия процесса
(log_make.log)
npge PostProcessing - анализирует полученный пангеном и создаёт множество файлов с информацией о нём
(log_processing.log)
Далее приведены ссылки на основные выходные файлы, полученные при работе программы:
nj-global-tree.tre
features.bs
mut.tsv
consensuses.fasta
pangenome.info
pangenome.bs
pangenome.bi
Описание стабильного ядра нуклеотидного пангенома
Стабильное ядро пангенома состоит из наиболее консервативных блоков, которые NPG-explorer обозначает как s-блоки. Некоторая информация о них, взятая из файла pangenome.info, приведена ниже:
• число s-блоков: 627
• размер стабильного ядра (процент нуклеотидов в ядре от нуклеотидов во всех геномах): 75.85%
• процент консервативных колонок в объединённом выравнивании s-блоков: 99.6576%
Поиск самых крупных делеций в каждом из геномов
Поиск делеций осуществлялся путём поиска h-блоков - полустабильных блоков, содержащих по одному фрагменту из части геномов, и не имеющих фрагментов в других геномах. Для этого файл pangenome.bi с информацией о всех блоках нуклеотидного пангенома был открыт в Excel, после чего таблица была отфильтрована по именам блока, начинающимся с «h», и отсортирована по убыванию длины блока. Затем для каждого генома был выбран наибольший по длине блок, отсутствующий только у него, но имеющийся в трёх других геномах, - он и считался крупнейшей делецией. Обращаю внимание, что случаи присутствия блока в двух геномах и отсутствия в двух других - делеции (или инсерции?), не уникальные для штамма - не рассматривались. Поиск генов в делетированных блоках проводился с помощью визуализатора НПГ qnpge. Далее приведена таблица с информацией о найденных делециях.
Геном | Блок | Длина блока | Делетированные гены |
---|---|---|---|
PXO99A | h3x1230 | 1230 | outer protein P, transposase |
ICMP3125 | h3x417 | 417 | integrase |
NX0260 | h3x2715 | 2715 | tRNA-Met |
PXO83 | h3x1609 | 1609 | calcium-binding protein, serine/threonine kinase, type VI secretion system tip protein VgrG |
Описание перестановки синтений
В контексте использования NPG-explorer перестановка синтений рассматривалась как перестановка g-блоков - участков, внутри которых s-блоки расположены в одинаковом порядке во всех геномах. Информация о g-блоках была получена из файла blocks.blocks. Этот файл был открыт в Excel, после чего полученная таблица была транспонирована, из неё были убраны строки, не содержащие g-блоков, затем она была транспонирована ещё раз, и столбцы с блоками были пронумерованы по порядку, а ячейки с одинаковыми блоками - окрашены одним цветом при помощи макроса (для удобства рассмотрения). Полученный файл можно скачать здесь. Одна из найденных перестановок g-блоков изображена на рисунке 1.
Можно видеть, что в двух из четырёх геномов (NX0260 и PXO83) блок g4x386 (лимонно-жёлтый) расположен между блоками g4x65214 (бледно-голубой) и g4x114343 (тёмно-синий), в столбце 31, в то время как в двух других геномах этот блок (розовый) расположен между g4x114343 (тёмно-синий) и g4x1761 (ярко-жёлтый), в столбце 33. Помимо перестановки, данный блок претерпел также инверсию (поэтому названия блоков отличаются символами «>» и «<», а соответствующие ячейки окрашены разными цветами). Можно сделать вывод, что у общего предка двух штаммов (либо NX0260 и PXO83, либо ICMP3125 и PXO99A) произошла транслокация с инверсией участка генома, соответствующего блоку g4x386.
Пример ошибки в аннотации генов
Наиболее, как мне показалось, странный вариант ошибки аннотации был найден в блоке s4x31676 около позиции 7540 (см. рисунок 2).
Здесь в геноме NX0260 был предсказан ген polysaccharide biosynthesis protein GumJ длиной 1494 bp, а в геноме PXO99A - ген hypothetical protein длиной 114 bp; в двух других геномах нет ничего. И тот, и другой ген расположены на прямой цепи и кодируют белки, но их рамки считывания сдвинуты друг относительно друга, и обе кодирующие последовательности имеют странные инициаторные кодоны. На мой взгляд, оба гена (особенно короткий и непонятный hypothetical protein) являются ошибочно аннотированными, хотя я, безусловно, могу ошибаться.