Для выполнения данного задания нам было необходимо выбрать бактерию, и пять ее штаммов соответвственно. Мой выбор пал на золотистый стафилококк, Staphylococcus aureus. Необходимо было выбрать пять различных штаммов и нами были выбраны следующие:
Для начала работы прежде всего необходимо было создать таблицу, содержащую информацию о штаммах в формате tsv. Нам было необходимо, при помощи специализированной программы построить нуклеотидный пангеном и описать крупные нуклеотидные события, произошедшие в этих штаммах.
Команда | Описание | Выходной файл |
npge -g npge.conf | Создает файл с параметрами для построения пангенома. Параметр "WORKERS" был изменен с 2 на 1, а "MIN_IDENTITY" с 0.978 на 0.878 | npge.conf |
npge Prepare &> log_prepare | Скачивает указанные в файле genomes.tsv геномные ДНК | log_prepare |
npge Examine &> log_examine | Оценивает сходство геномов | log_examine |
npge MakePangenome &> log_make | Создает пангеном | log_make |
npge PostProcessing &> log_post | Создает файлы с информацией о пангеноме | log_post |
Информация была взята из файла pangenome.info
Число блоков | 438 |
Размер нуклеотидного ядра как % нуклеотидов от общего числа нуклеотидов в геномах | 81.67% |
процент консервативных колонок в объединённом выравнивании s-блоков | 97.564% |
Длина фрагментов: min-max | 89-51265 |
Исходный файл pangenome.bi был импортирован в excel, отсортирован по длине делеции от большего к меньшему. Нами были выбраны блоки, начинающиеся на h. Далее нами были выбраны подходящие блоки с делецией для каждого штамма и проанализированы с помощью программы qnpge. Результаты предствлены в таблице.
Штамм | Блок | Длина/ | Делетированные гены |
GD487 | h4x4633 | 4633 | 3236 CDS BTN44_16180 GNAT family N-acetyltransferase (MRSA107), 498 bp < |
V8 | h4x2669 | 2669 | 1972 CDS BTN44_09860 MSCRAMM family adhesin SdrE (MRSA107), 3414 bp <, 5084 CDS SAGV69_02060 Serine-aspartate repeat-containing protein E (Gv69), 2406 bp < |
MOK063 | h4x2036 | 2036 | 1292 CDS BTN44_06460 DNA protecting protein DprA (MRSA107), 741 bp <, 4429 CDS SAGV69_01308 DNA processing Smf protein (Gv69), 804 bp < |
Gv69 | h4x1034 | 1034 | 12448 CDS FD482_02850 DUF443 domain-containing protein (GD487), 630 bp >, 1925 CDS BTN44_09625 hypothetical protein (MRSA107), 630 bp > |
MRSA107 | h4x225n1 | 225 | 9943 CDS KX797_04605 tandem-type lipoprotein Lpl4 (V8), 801 bp >, 5223 CDS SAGV69_02222 putative lipoprotein (Gv69), 801 bp > |
Для поиска синтений я использовала файл blocks.blocks. Результат так же представлен в файле blocks.xlsx. На Рис.1 проиллюстрирован пример перестановки g5x514 > блока. Согласно таблице, в штаммах Gv69 и V8 блоки находятся на первой позиции, в то время как в штаммах GD487, MOK063 и MRSA107 они находятся на 6 позицие.