Учебный сайт
Владимира Ноздрина

Трилобиты жгут машины,
Критикуя снег.
Кобыла и трупоглазые жабы, "МосХимСельЗавод"

Выравнивание геномов

Изначально планировалось делать практикум на Rhizobium leguminosarum, но при скачивании геномов возникал баг, решение которого описано в подсказках. Но я заметил решение уже после того, как начал делать на Rhizobium etli.

Создание пангенома

 Целью этого задания было создать нуклеотидный пангеном с помощью программы NPG-Explorer. Исследовались следующие штаммы Rhizobium etli: CFN-42, CIAT 652, Mim1, NXC12. Сначала был создан файл genomes.tsv, с помощью которого NPG-E и скачивает нужные файлы. Этот файл создавался вручную. Далее использовались следующие команды:
 npge Prepare скачивает геномы, указанные в genomes.tsv. Тут всё прошло нормально, но я забыл сохранить логи.
 npge Examine исследует скачанные геномы и вычисляет, какое число лучше всего указывать в качестве параметра MIN_IDENTITY. В моём случае это было 0.811.
 npge MakePangenome &> log_make.txt создаёт пангеном. Логи сохранились в файле log_make.txt.
 npge PostProcessing создаёт очень много дополнительных файлов с информацией.

Анализ пангенома

Стабильное ядро нуклеотидного пангенома

 Я подумал, что проще всего считать то, что нужно считать, будет с помощью Python, поэтому я написал скрипт, который всё считает. Он сделан в духе всего npge: просто без параметров запускается в рабочей директории с пангеномом. Количество блоков он считает из файла pangenome/pangenome.bi. Оттуда же берётся информация про абсолютно консервативные колонки. Информацию о длине блока для каждого генома он берёт из файла pangenome/fragments.tsv. Длина каждого генома берётся из файла examine/genomes-info.tsv. Итак, вывод скрипта:
Число блоков: 1641
Процент консервативных колонок в объединённом выравнивании s-блоков: 89.60%
Процент нуклеотидов из стабильного ядра пангенома:
  CFN-42: 80.06%
  CIAT 652: 77.79%
  Mim1: 81.88%
  NXC12: 81.63%

Поиск самой крупной делеции

 Здесь я тоже не нашёл ничего лучше, чем написать скрипт. За делецию он считает такой блок, которого нет только у одного из геномов. Длиной делеции считается длина выравнивания этого блока. Выбирать гены проще было вручную с помощью qnpge. Полученная информация содержится в Таблице 1. Название гена – это название гена какого-то из штаммов, которое мне больше всего понравилось (пишу это, потому что названия генов различаются в мелких деталях и надо было выбрать одно).
Таблица 1. Крупные делеции в геномах бактерий.
Штамм Длина делеции Делетированный блок Гены в этом блоке
CFN-42 2799 h3x2799 GDP-mannose 4,6-dehydratase 1, GDP-L-fucose synthase protein, SAM-dependent methyltransferase protein
CIAT 652 29995 h3x29995 GDP-mannose 4,6-dehydratase 2, lipopolysaccharide biosynthesis protein, glycosyltransferase family 1 protein и ещё порядка 20 генов
Mim1 1677 h3x1677 putative phage-related lysozyme protein, остальные гипотетические
NXC12 1403 h3x1403 potassium-efflux system protein, остальные гипотетические

Крупная перестановка синтений

 Для того, чтобы найти перестройки, я экспортировал файл global-blocks/blocks.blocks в Excel, транспонировал его, очистил все ячейки, в которых не g-блоки и покрасил цветом такие ячейки, для которых ниже в таблице существует блок с таким же названием, чтобы знать, из чего вообще искать. Полученный файл можно скачать по ссылке. В общем-то по этому файлу довольно удобно искать перестановки: просто в поиск по документу писать название окрашенного блока. Одну из наиболее крупных перестановок я нашёл в qnpge. Скриншот представлен на Рисунке 1.
Рисунок 1. Одна из наиболее крупных перестановок в штамме CIAT 652. Блок g4x16777 переехал ближе к 5'-концу. На скриншоте он самый первый и самый последний

Ошибка в аннотации генов

 Я пролистал много стабильных блоков, и все они были хорошо аннотированы. Одна из редких ошибок, если это можно так назвать, представлена на Рисунке 2: в аннотации CFN-42 написано, что это гипотетический белок, хотя в остальных это катионный транспортер. Эта ошибка находится в блоке s4x2759n1.
Рисунок 2. Ошибка в аннотации гена.

Обсуждение результатов

 Что касается аннотаций в геномах этих бактерий, то мне кажется, они сделаны довольно качественно. Что касается содержательной части, то я заметил, что штамм CIAT 652 очень сильно отличается от остальных штаммов. Такой вывод можно сделать по тому, насколько длинная в нём есть делеция, и она на самом деле там не одна такая. В файле pangenome.bi видно, что самые длинные делеции принадлежат именно ему: примерно десяток делеций длиннее 3000 пар оснований. И разных вставок там тоже достаточно. В файле g-blocks.xlsx, который я сделал для поиска крупных перестановок, видно, насколько сильно столбец штамма CIAT 652 отличается от остальных. Так что мне вообще кажется странным, почему этот штамм относится к этому виду.