Для исследования были взяты геномы четырёх штаммов Sulfolobus islandicus: M.16.40, M.16.23, M.16.2 и L.D.8.5. К роду Sulfolobus относятся археи, которые обитают в вулканических источниках при оптимальных для них pH 2-3 и температурах 75-80 ° C, что делает их ацидофилами и термофилами соответственно. Для анализа полногеномного выравнивания исследуемых последовательностей с помощью программы NPG-explorer был создан файл genomes.tsv.
Для построения нуклеотидного пангенома были использованы последовательно опции -g
, Prepare
, Examine
, MakePangenome
, PostProcessing
. С выдачей соотвествующих программ можно ознакомиться по следующим ссылкам:Prepare, MakePangenome. Программы Examine
и PostProcess
ничего не выводят в stdout, а команда npge.exe -g npge.conf
создает соответсвующий файл, в котором согласно рекомендации программы Examine
параметр MIN_IDENTITY был установлен равным 0.888.
Таким образом, в результате последовательного выполнения всех команд были получены следующие файлы:
Информацию о стабильном ядре можно найти в файле c описанием блоков. Нуклеотидный пангеном включает в себя 286 стабильных блоков, процент нуклеотидов в ядре от общего числа всех нуклеотидов равняется 80.92%, доля длины стабильных блоков от длины всех блоков составляет 65.81%. Процент консервативных колонок в объединённом выравнивании s-блоков составляет 98.9268%.
С помощью Excel были отобраны только h3-блоки и для каждого штамма был выбран наибольший по длине h3-блок, в котором отсутсвует последовательность этого штамма. Информацию об отобраных h3-блоках можно посмотреть в xlsx-файле. Из-за ошибки в аннотации гены отображались только для одного из штаммов, однако на всем промежутке предполагаемого гена последовательности имеют высокий процент похожести, поэтому были приведены полные названия генов.
Штамм | Длина делеции | Делетированный блок | Гены в этом блоке |
L.D.8.5 | 10890 | h3x10890 | генов найдено не было |
M.16.23 | 7174 | h3x7174 | 2654 CDS LD85_2814 regulatory protein, AsnC/Lrp family (L.D.8.5), 771 bp 2662 CDS LD85_2816 4Fe-4S ferredoxin, iron-sulfur binding domain (L.D.8.5), 1437 bp |
M.16.40 | 6954 | h3x6954 | 1292 CDS LD85_0943 CRISPR locus-related DNA-binding protein (L.D.8.5), 612 bp 1300 CDS LD85_0944 CRISPR-associated protein, Csa5 family (L.D.8.5), 432 bp 1301 CDS LD85_0948 CRISPR-associated helicase Cas3 (L.D.8.5), 1524 bp 1307 CDS LD85_0949 CRISPR-associated HD domain protein (L.D.8.5), 720 bp 1302 CDS LD85_0951 CRISPR-associated protein Cas6 (L.D.8.5), 897 bp |
M.16.2 | 3845 | h3x3845 | 1016 CDS LD85_0637 ATPase associated with various cellula (L.D.8.5), 1659 bp |
На Рисунке 1 можно видеть, что в геноме штамма L.D.8.5 произошло несколько крупных престановок, так относительно аналогичных блоков из других трех штаммов поменяли свое местоположение блоки g4x22143
, g4x3071
, g4x28651
. Большое количество отличий генома штамма L.D.8.5 также следует из построенного программой дерева (Рис. 2), так как данный штамм имеет самую длинную ветвь.