Выравнивание геномов

Выбор бактерии и штаммов

Для выполнения данного задания нам было необходимо выбрать бактерию, и пять ее штаммов соответвственно. Мой выбор пал на золотистый стафилококк, Staphylococcus aureus. Необходимо было выбрать пять различных штаммов и нами были выбраны следующие:

Для начала работы прежде всего необходимо было создать таблицу, содержащую информацию о штаммах в формате tsv. Нам было необходимо, при помощи специализированной программы построить нуклеотидный пангеном и описать крупные нуклеотидные события, произошедшие в этих штаммах.

Построение нуклеотидного пангенома с помощью NPG-explorer


Команда Описание Выходной файл
npge -g npge.conf Создает файл с параметрами для построения пангенома. Параметр "WORKERS" был изменен с 2 на 1, а "MIN_IDENTITY" с 0.978 на 0.878 npge.conf
npge Prepare &> log_prepare Скачивает указанные в файле genomes.tsv геномные ДНК log_prepare
npge Examine &> log_examine Оценивает сходство геномов log_examine
npge MakePangenome &> log_make Создает пангеном log_make
npge PostProcessing &> log_post Создает файлы с информацией о пангеноме log_post

Стабильное ядро нуклеотидного пангенома

Информация была взята из файла pangenome.info


Число блоков 438
Размер нуклеотидного ядра как % нуклеотидов от общего числа нуклеотидов в геномах 81.67%
процент консервативных колонок в объединённом выравнивании s-блоков 97.564%
Длина фрагментов: min-max 89-51265

Описание крупных делеций

Исходный файл pangenome.bi был импортирован в excel, отсортирован по длине делеции от большего к меньшему. Нами были выбраны блоки, начинающиеся на h. Далее нами были выбраны подходящие блоки с делецией для каждого штамма и проанализированы с помощью программы qnpge. Результаты предствлены в таблице.


Штамм Блок Длина/ Делетированные гены
GD487 h4x4633 4633 3236 CDS BTN44_16180 GNAT family N-acetyltransferase (MRSA107), 498 bp <
V8 h4x2669 2669 1972 CDS BTN44_09860 MSCRAMM family adhesin SdrE (MRSA107), 3414 bp <, 5084 CDS SAGV69_02060 Serine-aspartate repeat-containing protein E (Gv69), 2406 bp <
MOK063 h4x2036 2036 1292 CDS BTN44_06460 DNA protecting protein DprA (MRSA107), 741 bp <, 4429 CDS SAGV69_01308 DNA processing Smf protein (Gv69), 804 bp <
Gv69 h4x1034 1034 12448 CDS FD482_02850 DUF443 domain-containing protein (GD487), 630 bp >, 1925 CDS BTN44_09625 hypothetical protein (MRSA107), 630 bp >
MRSA107 h4x225n1 225 9943 CDS KX797_04605 tandem-type lipoprotein Lpl4 (V8), 801 bp >, 5223 CDS SAGV69_02222 putative lipoprotein (Gv69), 801 bp >

Перестановка синтений в g-блоках

Для поиска синтений я использовала файл blocks.blocks. Результат так же представлен в файле blocks.xlsx. На Рис.1 проиллюстрирован пример перестановки g5x514 > блока. Согласно таблице, в штаммах Gv69 и V8 блоки находятся на первой позиции, в то время как в штаммах GD487, MOK063 и MRSA107 они находятся на 6 позицие.

Рис. 1