Для построения НПГ были выбраны следующие штаммы бактерии Acidithiobacillus ferrivorans (причём, были взяты только хромосомные сборки): PRJEB5721, XJFY6S-08, SS3. Эта бактерия относится к Proteobacteria, семейству Acidithiobacillaceae.
На вход программе NPG-explorer был подан файл genomes.tsv, которую запустили в командной строке (важно, чтобы работа с программой шла в той же директории, где лежит файл). Далее последовательно вводим команды:
npge -g npge.conf
npge Prepare &> log_prepare
npge Examine
npge MakePangenome &> log_make
npge PostProcessing
qnpge
Выходные log-файлы для (2) и (4) команд: log_prepare, log_makepangenome. Основные выходные файлы: дерево геномов, описание генов, описание всех мутаций в блоках, с консенсусами всех блоков, описание блоков, с выравниваниями, таблица характеристик блоков. Папка npg лежит в директории~/term3/block2/credits/npg.
Для описания стабильного ядра нуклеотидного пангенома понадобится файл с описанием блоков. Таким образом, количество s-блоков (stable) составляет 414 (нуклеотидов всего 6231719), размер нуклеотидного ядра как процент нуклеотидов в ядре от числа нуклеотидов во всех геномах ("The percentage of input length") - 63.72%, процент числа колонок в объединенном выравнивании s-блоков от суммарного числа колонок во всех блоках НПГ ("The percentage of total blocks' length") - 46.35%.
Процент консервативных колонок в объединённом выравнивании s-блоков ("Identity of joined blocks") - 97.0506%.
Для выполнения данного задания использовался файл с таблицей характеристик блоков. Импортировав файл в Excel, находим наибольший h-блок, в котором содержится по одному фрагменту из двух геномов, но не во всех. Применяем методы электронных таблиц: после импорта, сдвигаем столбцы, находящиеся после поля "blocks", для удобства разделяем его (в качестве разделителя возьмём "х", затем "n"), сортируем по длине выравнивания (числу колонок в выравнивании) по убыванию, фильтруем (вводим "h", чтобы отобразились строки, содержащие запись h-блока). Для визуализации выравнивания и блоков и поиска генов была действована команда qnpge.
Геном | Имя блока с делецией | Длина делеции | Имена одного или нескольких делетированных генов |
---|---|---|---|
Acidithiobacillus ferrivorans str. PRJEB5721 | h2x7132 | 7132 | Glycosyltransferase |
Acidithiobacillus ferrivorans str. XJFY6S-08 | h2x8648 | 8648 | Type II and III secretion system protein, Type II secretion system protein E (также сюда попали гипотетический белок и белок с неизвестной функцией) |
Acidithiobacillus ferrivorans str. SS3 | h2x53452 | 53452 | Methyl-accepting chemotaxis protein, Chemotaxis protein CheV, Flagellar motor switch protein FliM, Flagellar motor switch protein FliG |
Для того, чтобы узнать, какие перестановки синтений (g-блоков) произошли, дальше работали в NPG-explorer (команда qnpge). Примером является блок g3x5065, который у генома штамма SS3 сдвинулся на 26 позиций от остальных геномов. Перед этим блоком находится блок g3x121n1 на 239 позиции, который сдвинулся на 87 позицию у второго штамма. За блоком g3x5065 находится блок g3x107 на 235 позиции, который сдвинулся на 85 позицию у второго штамма. Такие сдвиги, скорее всего, произошли из-за неправильного выравнивания блоков.
Поиск производился в блоке s3x58289. На рис.2 видно, что при одинаковых последовательностях нуклеотидов у PRJEB5721 и XJFY6S-08 (однако в них записаны два белка: Segregation and condensation protein A и триптофан-тРНК-лигаза), у SS3 тоже записаны два белка: Chromosome segregation and condensation protein и триптофанил-тРНК-синтетаза.
qnpge подсвечивает сиреневым цветом участки пересечения двух генов, аннотированных в одном геноме. Такие пересечения произошли, возможно, в процессе транскрипции.