Выравнивание геномов

Крупные эволюционные события в геномах 3 штаммов Neisseria meninditidis

Выбор геномов

На странице NCBI genome был произведён поиск по организму Neisseria meningitidis. В таблице с записями были оставлены колонки с штаммом, сборкой, уровнем сборки и размером, чтобы выбрать примерно одинаковые по длине последовательности.

В итоге были выбраны следующие записи: CP020402, CP031334, CP020422.

Построение нуклеотидного пангенома с помощью NPG-explorer

При работе использовалась инструкция NPG-explorer.

В директории /term3/block2/credits в соответствии с требованиями был создан файл genomes.tsv, содержащий информацию о записях. Далее последовала команда npge Prepare, которая готовит последовательности и гены к дальнейшей работе. Команда npge Examine помогла перепроверить примерное соответствие длин хромосом (если длины последовательностей сильно отличаются, выйдет плохой пангеном), а также помогла узнать рекомендуемое значение параметра MIN_IDENTITY.

Для установки опций и использующихся программами значений командой npge -g npge.conf был создан файл npge.conf, в котором значение MIN_IDENTITY было заменено на рекомендуемое, а значение WORKERS заменено на 1, чтобы задействовать только один процессор и не перегружать систему.

Далее с помощью команды npge MakePangenome &> log1.txt был создан пангеном, сообщения перенаправлялись в файл log1.txt. После ввода npge PostProcessing &> log2.txt произошёл постпроцессинг, сообщения перенаправлялись в log2.txt. Чтобы убедиться, что пангеном получился хорошим, была использована команда npge CheckPangenome. В chek/isgood содержался перечень плохих блоков и заключение, что пангеном хорошим считать нельзя. Но нам остаётся довольствоваться имеющимся.

Стабильное ядро нуклеотидного пангенома

В файле pangenome/pangenome.info находится статистика о блоках разных типов, здесь найдём число коровых (s-)блоков. Их 589. Размер нуклеотидного ядра как процент нуклеотидов в ядре от числа нуклеотидов во всех геномах — 83.05%, процент консервативных колонок в объединённом выравнивании s-блоков — 86.85%.

Самая крупная делеция в каждом геноме

В файле pangenome/pangenome.bi содержится информация о всех блоках разных типов. Импортируем его в гугл-таблицу для удобства работы. Отсортируем таблицу по имени блока (фильтровать по условию -> текст содержит-> h). По какой-то причине все полустабильные блоки присутствуют в первом и третьем геноме, но отсутствуют во втором (CP031334). Таким образом, делецию можно рассмотреть только для второго генома. Возмоно, это связано с тем, что первый и третий штаммы достаточно близки друг к другу.

Теперь отсортируем по длине (cols), выбрав самый длинный блок. Данные о соответствующем делеции блоке указаны в Таблице 1.

Таблица 1. Информация о делятированном блоке

Геном	Имя блока	Длина	Делетированные гены
CP031334	h2x2947	2947	DNA mismatch repair protein MutH; DNA (cytosine-5-)-methyltransferase

Делеция таких важных генов вряд ли произошла бы без сильного урона для бактерии, поэтому логично предположить, что их копии есть в других участках генома.

Перестановка синтений (g-блоков) в одном или некоторых некоторых геномах

Чтобы не тратить время на работу с переводом global-blocks/blocks.gbi в подходящий для анализа формат или на перестраивание таблицы lobal-blocks/global-fragments.tsv, я решил найти перестановки в визуализации. Пример такой перестановки представлен на Изображении 1. Блоки g3x20835 и g3x1227 в 53 и 57 позициях соответственно были взяты для удобства восприятия отсутствия одних блоков относительно других. В нашем случае блок g3x102 перемещён с 55 позиции на 59.

**Изображение 1.** Окно Global Blocks визуализатора qnpge

Примеры ошибки аннотации гена

В блоке s3x2477 у первого и последнего генома аннотирован ген galactose mutarotase, во втором же геноме аннотация отсутствует. В блоке r31x128 аналогичная ситуация, только на этот раз в первом геноме есть аннотированная IS30-like element IS1655 family transposase, а в остальных нет.

NPG-explorer оказался весьма удобным инструментом для построения нуклеотидных пангеномов и их анализа. Файлы на выходе программы позволяют найти и проанализировать различные крупные эволюционные изменения.

В ходе работы стало ясно, что второй штамм самый далёкий от первого из исследуемых. Это видно по большому количеству перестановок синтений и по большому количеству делеций. В первом и втором штаммах предположительные их вообще не получилось найти.

Стоит также отметить, что даже несмотря на сообщение программой npge CheckPangenome, что пангеном получился плохим, никаких проблем кроме ошибок в аннотации не возникло.