Блок 2, практикум 10, выравнивание геномов

1. Выбор 3-5 штаммов одного вида бактерий.

Для дальнейшей работы я выбрал 3 штамма бактерии Streptococcus pyogenes:

1. Streptococcus pyogenes strain JRS4

2. Streptococcus pyogenes strain SSI-1

3. Streptococcus pyogenes strain MGAS10270

Из этих геномов был составлен единственный входной файл для NPG-explorer - genomes.tsv.

2. Выравнивание с использованием программы NPG Explorer.

На основании информации в файле identity_recommended.txt, полученном после выполнения команды npge Examine, параметр MIN_IDENTITY в файле npge.conf был изменен на 0.886.

Полученные файлы

1. pangenome.info

2. pangenome.bi

3. pangenome.bs

4. nj-global-tree.tre

5. features.bs

6. mut.tsv

3. Cтабильное ядро нуклеотидного пангенома.

Количество s-блоков - 163. Размер нуклеотидного ядра - 83.86%. Процент консервативных колонок в объединенном выравнивании - 98.452%

4. Делеции.

Для анализа делеций я выбрал крупнейшие h-блоки (h2-блоки), воспользовавшись импортом данных в Excel из файла pangenome.bi - при импорте блоки автоматически отсортировались по убыванию длины, далее я искал белок-кодирующие последовательности в этих блоках с помощью NPG-explorer.

h-блок h2x17514

Данный блок длиной в 17514 bp отсутствует у Streptococcus pyogenes strain JRS4 (SP1 в genomes.tsv). Он включает в себя гены различных вирусных белков, принадлежащих бактериофагу Streptococcus phage 10270.2 (TaxID:370560). Примеры этих генов: phage-associated cell wall hydrolase(765 bp, продукт - ABF33911), N-acetylmuramoyl-L-alanine amidase(333 bp, продукт - ABF33910), phage protein(3450 bp, продукт - ABF33905), phage tail protein(1485 bp, продукт - ABF33904).

h-блок h2x11005

Данный блок длиной в 11005 bp отсутствует у Streptococcus pyogenes strain MGAS10270 (SP3 в genomes.tsv). Он также включает в себя гены разных вирусных белков: TP901-1 family phage major tail protein(573 bp, продукт - AKI76730), phage gp6-like head-tail connector protein(357 bp, AKI76734), phage capsid scaffolding protein(570 bp, AKI76736) и др.

5. Перестановка синтений

Я обнаружил перестановку двух троек g-блоков: g3x19575 и g3x188523 (см. рис. 1)

g-blocks
Рис. 1. Перестановки блоков g3x19575 (21, 23 столбцы) и g3x188523 (22, 24 и 28 столбцы).