Для исследования были взяты геномы четырёх штаммов Sulfolobus islandicus: M.16.40, M.16.23, M.16.2 и L.D.8.5. К роду Sulfolobus относятся археи, которые обитают в вулканических источниках при оптимальных для них pH 2-3 и температурах 75-80 ° C, что делает их ацидофилами и термофилами соответственно. Для анализа полногеномного выравнивания исследуемых последовательностей с помощью программы NPG-explorer был создан файл genomes.tsv.
Для построения нуклеотидного пангенома были использованы последовательно опции -g, Prepare, Examine, MakePangenome, PostProcessing. С выдачей соотвествующих программ можно ознакомиться по следующим ссылкам:Prepare, MakePangenome. Программы Examine и PostProcess ничего не выводят в stdout, а команда npge.exe -g npge.conf создает соответсвующий файл, в котором согласно рекомендации программы Examine параметр MIN_IDENTITY был установлен равным 0.888.
Таким образом, в результате последовательного выполнения всех команд были получены следующие файлы:
Информацию о стабильном ядре можно найти в файле c описанием блоков. Нуклеотидный пангеном включает в себя 286 стабильных блоков, процент нуклеотидов в ядре от общего числа всех нуклеотидов равняется 80.92%, доля длины стабильных блоков от длины всех блоков составляет 65.81%. Процент консервативных колонок в объединённом выравнивании s-блоков составляет 98.9268%.
С помощью Excel были отобраны только h3-блоки и для каждого штамма был выбран наибольший по длине h3-блок, в котором отсутсвует последовательность этого штамма. Информацию об отобраных h3-блоках можно посмотреть в xlsx-файле. Из-за ошибки в аннотации гены отображались только для одного из штаммов, однако на всем промежутке предполагаемого гена последовательности имеют высокий процент похожести, поэтому были приведены полные названия генов.
| Штамм | Длина делеции | Делетированный блок | Гены в этом блоке |
| L.D.8.5 | 10890 | h3x10890 | генов найдено не было |
| M.16.23 | 7174 | h3x7174 | 2654 CDS LD85_2814 regulatory protein, AsnC/Lrp family (L.D.8.5), 771 bp 2662 CDS LD85_2816 4Fe-4S ferredoxin, iron-sulfur binding domain (L.D.8.5), 1437 bp |
| M.16.40 | 6954 | h3x6954 | 1292 CDS LD85_0943 CRISPR locus-related DNA-binding protein (L.D.8.5), 612 bp 1300 CDS LD85_0944 CRISPR-associated protein, Csa5 family (L.D.8.5), 432 bp 1301 CDS LD85_0948 CRISPR-associated helicase Cas3 (L.D.8.5), 1524 bp 1307 CDS LD85_0949 CRISPR-associated HD domain protein (L.D.8.5), 720 bp 1302 CDS LD85_0951 CRISPR-associated protein Cas6 (L.D.8.5), 897 bp |
| M.16.2 | 3845 | h3x3845 | 1016 CDS LD85_0637 ATPase associated with various cellula (L.D.8.5), 1659 bp |
На Рисунке 1 можно видеть, что в геноме штамма L.D.8.5 произошло несколько крупных престановок, так относительно аналогичных блоков из других трех штаммов поменяли свое местоположение блоки g4x22143, g4x3071, g4x28651. Большое количество отличий генома штамма L.D.8.5 также следует из построенного программой дерева (Рис. 2), так как данный штамм имеет самую длинную ветвь.