На странице NCBI genome был произведён поиск по организму Neisseria meningitidis. В таблице с записями были оставлены колонки с штаммом, сборкой, уровнем сборки и размером, чтобы выбрать примерно одинаковые по длине последовательности.
В итоге были выбраны следующие записи: CP020402, CP031334, CP020422.
При работе использовалась инструкция NPG-explorer.
В директории /term3/block2/credits в соответствии с требованиями был создан файл genomes.tsv, содержащий информацию о записях. Далее последовала команда npge Prepare, которая готовит последовательности и гены к дальнейшей работе. Команда npge Examine помогла перепроверить примерное соответствие длин хромосом (если длины последовательностей сильно отличаются, выйдет плохой пангеном), а также помогла узнать рекомендуемое значение параметра MIN_IDENTITY.
Для установки опций и использующихся программами значений командой npge -g npge.conf был создан файл npge.conf, в котором значение MIN_IDENTITY было заменено на рекомендуемое, а значение WORKERS заменено на 1, чтобы задействовать только один процессор и не перегружать систему.
Далее с помощью команды npge MakePangenome &> log1.txt был создан пангеном, сообщения перенаправлялись в файл log1.txt. После ввода npge PostProcessing &> log2.txt произошёл постпроцессинг, сообщения перенаправлялись в log2.txt. Чтобы убедиться, что пангеном получился хорошим, была использована команда npge CheckPangenome. В chek/isgood содержался перечень плохих блоков и заключение, что пангеном хорошим считать нельзя. Но нам остаётся довольствоваться имеющимся.
В файле pangenome/pangenome.info находится статистика о блоках разных типов, здесь найдём число коровых (s-)блоков. Их 589. Размер нуклеотидного ядра как процент нуклеотидов в ядре от числа нуклеотидов во всех геномах — 83.05%, процент консервативных колонок в объединённом выравнивании s-блоков — 86.85%.
В файле pangenome/pangenome.bi содержится информация о всех блоках разных типов. Импортируем его в гугл-таблицу для удобства работы. Отсортируем таблицу по имени блока (фильтровать по условию -> текст содержит-> h). По какой-то причине все полустабильные блоки присутствуют в первом и третьем геноме, но отсутствуют во втором (CP031334). Таким образом, делецию можно рассмотреть только для второго генома. Возмоно, это связано с тем, что первый и третий штаммы достаточно близки друг к другу.
Теперь отсортируем по длине (cols), выбрав самый длинный блок. Данные о соответствующем делеции блоке указаны в Таблице 1.
Геном | Имя блока | Длина | Делетированные гены |
---|---|---|---|
CP031334 | h2x2947 | 2947 | DNA mismatch repair protein MutH; DNA (cytosine-5-)-methyltransferase |
Делеция таких важных генов вряд ли произошла бы без сильного урона для бактерии, поэтому логично предположить, что их копии есть в других участках генома.
Чтобы не тратить время на работу с переводом global-blocks/blocks.gbi в подходящий для анализа формат или на перестраивание таблицы lobal-blocks/global-fragments.tsv, я решил найти перестановки в визуализации. Пример такой перестановки представлен на Изображении 1. Блоки g3x20835 и g3x1227 в 53 и 57 позициях соответственно были взяты для удобства восприятия отсутствия одних блоков относительно других. В нашем случае блок g3x102 перемещён с 55 позиции на 59.
В блоке s3x2477 у первого и последнего генома аннотирован ген galactose mutarotase, во втором же геноме аннотация отсутствует. В блоке r31x128 аналогичная ситуация, только на этот раз в первом геноме есть аннотированная IS30-like element IS1655 family transposase, а в остальных нет.
NPG-explorer оказался весьма удобным инструментом для построения нуклеотидных пангеномов и их анализа. Файлы на выходе программы позволяют найти и проанализировать различные крупные эволюционные изменения.
В ходе работы стало ясно, что второй штамм самый далёкий от первого из исследуемых. Это видно по большому количеству перестановок синтений и по большому количеству делеций. В первом и втором штаммах предположительные их вообще не получилось найти.
Стоит также отметить, что даже несмотря на сообщение программой npge CheckPangenome, что пангеном получился плохим, никаких проблем кроме ошибок в аннотации не возникло.