Для выполнения задания я выбрала сеннную палочку (Bacillus subtilis) и 5 ее штаммов: Bacillus subtilis strain H19, Bacillus subtilis strain SP1, Bacillus subtilis strain R31, Bacillus subtilis strain VV2, Bacillus subtilis strain TLO3. Основываясь на этих данных, был сделан входной файл для программы NPG-explorer genomes.tsv. С помощью этой программы, мы сможем построить нуклеотидный пангеном и описать крупные эволюционные события в наших штаммах сенной палочки.
Чтобы построить НПГ были выполнены следующие команды:
Команда | Описание | Итоговый файл |
npge -g npge.conf | Создает файл с параметрами для построения пангенома. Параметр "WORKERS" был изменен с 2 на 1, а "MIN_IDENTITY" с 0.9 на 0.875 (число взято из файла, пролученного командой Examine) | npge.conf |
npge Prepare &> log_prepare | Скачивает указанные в файле genomes.tsv геномные ДНК. | log_prepare |
npge Examine &> log_examine | Оценивает сходство геномов | log_examine |
npge MakePangenome &> log_make | Создает пангеном | log_make |
npge PostProcessing &> log_post | Создает файлы с различной информацией о пангеноме | log_post |
Информация была взята из файла pangenome.info
число блоков (s-blocks): 297
размер нуклеотидного ядра как процент нуклеотидов в ядре от числа нуклеотидов во всех геномах: 86.23%
размер нуклеотидного ядра как процент нуклеотидов в ядре от общей длины блоков 72.87%
процент консервативных колонок в объединённом выравнивании s-блоков: 97.2783%
Информация была взята из файла pangenome.bi. После импорта файла в excel, оставляем в первой колонке блоки, которые начинаются на h и фильтруем длину делеции от большего к меньшему. Далее ищем подходящий блок для каждого штамма и анализируем с помощью программы qnpge. Результаты представлены ниже в таблице.
Геном | Имя блока | Длина делеции | Имена делетированных генов |
Bacillus subtilis strain TLO3 | h4x57352 | 57352 | 5392 CDS GO004_04935 polyketide synthase 1860 CDS HWV68_09300 polyketide synthase 12599 CDS BKN48_19255 non-ribosomal peptide synthetase |
Bacillus subtilis strain VV2 | h4x11196 | 11196 | Гены не были найдены. Далее был расмотрен блок h4x2673, но там тоже не было найдены гены. В итоге гены нашлись в блоке h4x2254. Информация представлена в строке ниже. |
Bacillus subtilis strain VV2 | h4x2254 | 2254 | 6001 CDS GO004_07980 peptide-binding protein 1250 CDS HWV68_06250 peptide-binding protein 14185 CDS CLD04_06655 peptide-binding protein |
Bacillus subtilis strain H19 | h4x3958 | 3958 | Гены не были найдены. Далее был расмотрен блок h4x1043, но там тоже не было найдены гены. В итоге гены нашлись в блоке h4x875. Информация представлена в строке ниже. |
Bacillus subtilis strain H19 | h4x875 | 875 | 7946 CDS GO004_17705 zinc-ribbon domain-containing protein 3650 CDS HWV68_18250 zinc ribbon domain-containing protein 16377 CDS CLD04_17610 zinc ribbon domain-containing protein 10010 CDS BKN48_06310 hypothetical protein |
Bacillus subtilis strain R31 | h4x2989 | 2989 | Гены не были найдены. Далее был расмотрен блок h4x2064 и там были найдены гены. Информация представлена в строке ниже. |
Bacillus subtilis strain R31 | h4x2064 | 2064 | 217 CDS HWV68_01340 DUF1906 domain-containing protein 13187 CDS CLD04_01675 hypothetical protein 11025 CDS BKN48_11385 hypothetical protein |
Bacillus subtilis strain SP1 | h4x2638 | 2638 | Гены не были найдены. Далее был расмотрен блок h4x1766, но там тоже не было найдены гены. В итоге гены нашлись в блоке h4x991. Информация представлена в строке ниже |
Bacillus subtilis strain SP1 | h4x991 | 991 | 4608 CDS GO004_01000 penicillin-binding protein 15484 CDS CLD04_13150 penicillin-binding protein 2 9138 CDS BKN48_01950 penicillin-binding protein |
Необходимую информацию для поиска синтетий я взяла в файле blocks.blocks. Ниже в таблице можно увидеть несколько перестановок в g-блоках. Рассмотрим блок g5x619511. У всех штаммов, кроме VV2, расположение блока совпадает, а непосредственно у VV2, он смещен на 4 g-блока назад.
Это можно наблюдать в задании "Описание крупной делеции в каждом геноме". Но рассмотрим случай блока s5x35880. В нем для штаммов R31 и SP1 указано, что это repair protein Rad, для штамма TLO3 - domain-containing protein, для VV2 - гипотетический белок, а для H19 - ничего.