Трилобиты жгут машины,
Критикуя снег. Кобыла и трупоглазые жабы, "МосХимСельЗавод"
Выравнивание геномов
Изначально планировалось делать практикум на Rhizobium leguminosarum, но при скачивании геномов возникал баг, решение которого описано в подсказках. Но я заметил решение уже после того, как начал делать на Rhizobium etli.
Создание пангенома
Целью этого задания было создать нуклеотидный пангеном с помощью программы NPG-Explorer. Исследовались следующие штаммы Rhizobium etli: CFN-42, CIAT 652, Mim1, NXC12. Сначала был создан файл genomes.tsv, с помощью которого NPG-E и скачивает нужные файлы. Этот файл создавался вручную. Далее использовались следующие команды: npge Prepare скачивает геномы, указанные в genomes.tsv. Тут всё прошло нормально, но я забыл сохранить логи. npge Examine исследует скачанные геномы и вычисляет, какое число лучше всего указывать в качестве параметра MIN_IDENTITY. В моём случае это было 0.811. npge MakePangenome &> log_make.txt создаёт пангеном. Логи сохранились в файле log_make.txt. npge PostProcessing создаёт очень много дополнительных файлов с информацией.
Анализ пангенома
Стабильное ядро нуклеотидного пангенома
Я подумал, что проще всего считать то, что нужно считать, будет с помощью Python, поэтому я написал скрипт, который всё считает. Он сделан в духе всего npge: просто без параметров запускается в рабочей директории с пангеномом. Количество блоков он считает из файла pangenome/pangenome.bi. Оттуда же берётся информация про абсолютно консервативные колонки. Информацию о длине блока для каждого генома он берёт из файла pangenome/fragments.tsv. Длина каждого генома берётся из файла examine/genomes-info.tsv. Итак, вывод скрипта:
Число блоков: 1641
Процент консервативных колонок в объединённом выравнивании s-блоков: 89.60%
Процент нуклеотидов из стабильного ядра пангенома:
CFN-42: 80.06%
CIAT 652: 77.79%
Mim1: 81.88%
NXC12: 81.63%
Поиск самой крупной делеции
Здесь я тоже не нашёл ничего лучше, чем написать скрипт. За делецию он считает такой блок, которого нет только у одного из геномов. Длиной делеции считается длина выравнивания этого блока. Выбирать гены проще было вручную с помощью qnpge. Полученная информация содержится в Таблице 1. Название гена – это название гена какого-то из штаммов, которое мне больше всего понравилось (пишу это, потому что названия генов различаются в мелких деталях и надо было выбрать одно).
Таблица 1. Крупные делеции в геномах бактерий.
Штамм
Длина делеции
Делетированный блок
Гены в этом блоке
CFN-42
2799
h3x2799
GDP-mannose 4,6-dehydratase 1, GDP-L-fucose synthase protein, SAM-dependent methyltransferase protein
CIAT 652
29995
h3x29995
GDP-mannose 4,6-dehydratase 2, lipopolysaccharide biosynthesis protein, glycosyltransferase family 1 protein и ещё порядка 20 генов
Mim1
1677
h3x1677
putative phage-related lysozyme protein, остальные гипотетические
NXC12
1403
h3x1403
potassium-efflux system protein, остальные гипотетические
Крупная перестановка синтений
Для того, чтобы найти перестройки, я экспортировал файл global-blocks/blocks.blocks в Excel, транспонировал его, очистил все ячейки, в которых не g-блоки и покрасил цветом такие ячейки, для которых ниже в таблице существует блок с таким же названием, чтобы знать, из чего вообще искать. Полученный файл можно скачать по ссылке. В общем-то по этому файлу довольно удобно искать перестановки: просто в поиск по документу писать название окрашенного блока. Одну из наиболее крупных перестановок я нашёл в qnpge. Скриншот представлен на Рисунке 1.
Ошибка в аннотации генов
Я пролистал много стабильных блоков, и все они были хорошо аннотированы. Одна из редких ошибок, если это можно так назвать, представлена на Рисунке 2: в аннотации CFN-42 написано, что это гипотетический белок, хотя в остальных это катионный транспортер. Эта ошибка находится в блоке s4x2759n1.
Обсуждение результатов
Что касается аннотаций в геномах этих бактерий, то мне кажется, они сделаны довольно качественно. Что касается содержательной части, то я заметил, что штамм CIAT 652 очень сильно отличается от остальных штаммов. Такой вывод можно сделать по тому, насколько длинная в нём есть делеция, и она на самом деле там не одна такая. В файле pangenome.bi видно, что самые длинные делеции принадлежат именно ему: примерно десяток делеций длиннее 3000 пар оснований. И разных вставок там тоже достаточно. В файле g-blocks.xlsx, который я сделал для поиска крупных перестановок, видно, насколько сильно столбец штамма CIAT 652 отличается от остальных. Так что мне вообще кажется странным, почему этот штамм относится к этому виду.