Выравнивание геномов

Выбор прокариотического организма с полностью собранным геномом

Для исследования были выбраны геномы 3 штаммов Clostridium tetani: mfbjulcb2, E88, Harvard 49205. Данный вид является возбудителем столбняка. Для анализа полногеномного выравнивания исследуемых последовательностей с помощью программы NPG-explorer был создан файл genomes.tsv, в котором приведены названия и АС штаммов из RefSeq.

Построение нуклеотидного пангенома с помощью NPG-explorer

Далее производился запуск команд -g, Prepare, Examine, MakePangenome, PostProcessing. С выдачей последних Prepare и MakePangenome можно ознакомиться по ссылкам: Prepare, MakePangenome. Программы Examine и PostProcess ничего не выводят в stdout, а команда npge.exe -g npge.conf создает соответсвующий файл, в котором согласно рекомендации программы Examine параметр MIN_IDENTITY был установлен равным 0.889.

Таким образом, в результате последовательного выполнения всех команд были получены следующие файлы:

Описание стабильного ядра нуклеотидного пангенома

Нуклеотидный пангеном включает в себя 398 стабильных блоков, процент нуклеотидов в ядре от общего числа всех нуклеотидов равняется 87.88%, доля длины стабильных блоков от длины всех блоков составляет 77.06%. Процент консервативных колонок в объединённом выравнивании s-блоков составляет 98,6579.

Описание крупных делеций

Для того, чтобы проследить делеции, мы воспользовались информацией из файла pangenome.bi, которая была переведена в формат .xlsx. Полустабильные блоки (h-блоки) - блоки, в которых содержатся последовательности не из всех геномов. Их и будем искать. В Excel включаем фильтр на наличие буквы h в названии блока и сортируем по столбцу col в порядке убывания, чтобы найти самые длинные. Результат можно найти в этом xlsx-файле.

Штамм Имя блока, подтверждающего делецию Длина делеции Имена выпавших генов
Harvard49205 h2x6552 6552 программа не обнаружила гены на данном участке
mfbjulcb2 h2x3110 3110 программа не обнаружила гены на данном участке
E88 h2x1535 1535 программа не обнаружила гены на данном участке

Описание перестановок синтений

У штамма mfbjulcb2 произошла перестановка блока g3x59968 с позиции 144 на позицию 78, блока g3x54837 с позиции 137 на позицию 51 и блока g3x45154 с позиции 107 на позицию 82.