Практикум 8. Выравнивание геномов

В ходе этого практикума для четырёх штаммов бактерии Xanthomonas oryzae был построен (и в некоторой степени проанализирован) нуклеотидный пангеном.

Построение нуклеотидного пангенома

Для этой цели была использована программа NPG-explorer под Windows 10. В рабочей папке был создан файл genomes.tsv, содержащий входные данные, после чего выполнена цепочка команд, собранных в .bat-файл. Для всех команд выдача в консоль перенаправлялась в log-файлы.

Описание выполненных команд (и логи их выполнения):

npge Prepare - скачивает и переименовывает указанные в genomes.tsv геномные последовательности
(log_prepare.log)
npge Examine - оценивает сходство геномов и создаёт файл examine/identity_recommended.txt (но в итоге я не прислушался к рекомендациям и оставил MIN_IDENTITY по умолчанию, поэтому выполнять эту команду было необязательно)
(log_examine.log)
npge MakePangenome - собственно строит нуклеотидный пангеном, наиболее вычислительно затратная стадия процесса
(log_make.log)
npge PostProcessing - анализирует полученный пангеном и создаёт множество файлов с информацией о нём
(log_processing.log)

Далее приведены ссылки на основные выходные файлы, полученные при работе программы:

nj-global-tree.tre
features.bs
mut.tsv
consensuses.fasta
pangenome.info
pangenome.bs
pangenome.bi

Описание стабильного ядра нуклеотидного пангенома

Стабильное ядро пангенома состоит из наиболее консервативных блоков, которые NPG-explorer обозначает как s-блоки. Некоторая информация о них, взятая из файла pangenome.info, приведена ниже:

• число s-блоков: 627
• размер стабильного ядра (процент нуклеотидов в ядре от нуклеотидов во всех геномах): 75.85%
• процент консервативных колонок в объединённом выравнивании s-блоков: 99.6576%

Поиск самых крупных делеций в каждом из геномов

Поиск делеций осуществлялся путём поиска h-блоков - полустабильных блоков, содержащих по одному фрагменту из части геномов, и не имеющих фрагментов в других геномах. Для этого файл pangenome.bi с информацией о всех блоках нуклеотидного пангенома был открыт в Excel, после чего таблица была отфильтрована по именам блока, начинающимся с «h», и отсортирована по убыванию длины блока. Затем для каждого генома был выбран наибольший по длине блок, отсутствующий только у него, но имеющийся в трёх других геномах, - он и считался крупнейшей делецией. Обращаю внимание, что случаи присутствия блока в двух геномах и отсутствия в двух других - делеции (или инсерции?), не уникальные для штамма - не рассматривались. Поиск генов в делетированных блоках проводился с помощью визуализатора НПГ qnpge. Далее приведена таблица с информацией о найденных делециях.

**Таблица 1.** Крупнейшие делеции, найденные в исследуемых геномах
Геном	Блок	Длина блока	Делетированные гены
PXO99A	h3x1230	1230	outer protein P, transposase
ICMP3125	h3x417	417	integrase
NX0260	h3x2715	2715	tRNA-Met
PXO83	h3x1609	1609	calcium-binding protein, serine/threonine kinase, type VI secretion system tip protein VgrG

Описание перестановки синтений

В контексте использования NPG-explorer перестановка синтений рассматривалась как перестановка g-блоков - участков, внутри которых s-блоки расположены в одинаковом порядке во всех геномах. Информация о g-блоках была получена из файла blocks.blocks. Этот файл был открыт в Excel, после чего полученная таблица была транспонирована, из неё были убраны строки, не содержащие g-блоков, затем она была транспонирована ещё раз, и столбцы с блоками были пронумерованы по порядку, а ячейки с одинаковыми блоками - окрашены одним цветом при помощи макроса (для удобства рассмотрения). Полученный файл можно скачать здесь. Одна из найденных перестановок g-блоков изображена на рисунке 1.

**Рисунок 1.** Перестановка блока g4x386

Можно видеть, что в двух из четырёх геномов (NX0260 и PXO83) блок g4x386 (лимонно-жёлтый) расположен между блоками g4x65214 (бледно-голубой) и g4x114343 (тёмно-синий), в столбце 31, в то время как в двух других геномах этот блок (розовый) расположен между g4x114343 (тёмно-синий) и g4x1761 (ярко-жёлтый), в столбце 33. Помимо перестановки, данный блок претерпел также инверсию (поэтому названия блоков отличаются символами «>» и «<», а соответствующие ячейки окрашены разными цветами). Можно сделать вывод, что у общего предка двух штаммов (либо NX0260 и PXO83, либо ICMP3125 и PXO99A) произошла транслокация с инверсией участка генома, соответствующего блоку g4x386.

Пример ошибки в аннотации генов

Наиболее, как мне показалось, странный вариант ошибки аннотации был найден в блоке s4x31676 около позиции 7540 (см. рисунок 2).

**Рисунок 2.** Предполагаемая ошибка в аннотации генов

Здесь в геноме NX0260 был предсказан ген polysaccharide biosynthesis protein GumJ длиной 1494 bp, а в геноме PXO99A - ген hypothetical protein длиной 114 bp; в двух других геномах нет ничего. И тот, и другой ген расположены на прямой цепи и кодируют белки, но их рамки считывания сдвинуты друг относительно друга, и обе кодирующие последовательности имеют странные инициаторные кодоны. На мой взгляд, оба гена (особенно короткий и непонятный hypothetical protein) являются ошибочно аннотированными, хотя я, безусловно, могу ошибаться.