Для дальнейшей работы я выбрал 3 штамма бактерии Streptococcus pyogenes:
1. Streptococcus pyogenes strain JRS4
2. Streptococcus pyogenes strain SSI-1
3. Streptococcus pyogenes strain MGAS10270
Из этих геномов был составлен единственный входной файл для NPG-explorer - genomes.tsv.
На основании информации в файле identity_recommended.txt, полученном после выполнения команды npge Examine
, параметр MIN_IDENTITY в файле npge.conf был изменен на 0.886.
2. pangenome.bi
3. pangenome.bs
5. features.bs
6. mut.tsv
Количество s-блоков - 163. Размер нуклеотидного ядра - 83.86%. Процент консервативных колонок в объединенном выравнивании - 98.452%
Для анализа делеций я выбрал крупнейшие h-блоки (h2-блоки), воспользовавшись импортом данных в Excel из файла pangenome.bi - при импорте блоки автоматически отсортировались по убыванию длины, далее я искал белок-кодирующие последовательности в этих блоках с помощью NPG-explorer.
Данный блок длиной в 17514 bp отсутствует у Streptococcus pyogenes strain JRS4 (SP1 в genomes.tsv). Он включает в себя гены различных вирусных белков, принадлежащих бактериофагу Streptococcus phage 10270.2 (TaxID:370560). Примеры этих генов: phage-associated cell wall hydrolase(765 bp, продукт - ABF33911), N-acetylmuramoyl-L-alanine amidase(333 bp, продукт - ABF33910), phage protein(3450 bp, продукт - ABF33905), phage tail protein(1485 bp, продукт - ABF33904).
Данный блок длиной в 11005 bp отсутствует у Streptococcus pyogenes strain MGAS10270 (SP3 в genomes.tsv). Он также включает в себя гены разных вирусных белков: TP901-1 family phage major tail protein(573 bp, продукт - AKI76730), phage gp6-like head-tail connector protein(357 bp, AKI76734), phage capsid scaffolding protein(570 bp, AKI76736) и др.
Я обнаружил перестановку двух троек g-блоков: g3x19575 и g3x188523 (см. рис. 1)