Выравнивание геномов



Отчёт о крупных эволюционных событиях, на основе примеров, обнаруживаемых в геномах 3-5 штаммов одного вида бактерий или архей

Для выполнения задания я выбрала сеннную палочку (Bacillus subtilis) и 5 ее штаммов: Bacillus subtilis strain H19, Bacillus subtilis strain SP1, Bacillus subtilis strain R31, Bacillus subtilis strain VV2, Bacillus subtilis strain TLO3. Основываясь на этих данных, был сделан входной файл для программы NPG-explorer genomes.tsv. С помощью этой программы, мы сможем построить нуклеотидный пангеном и описать крупные эволюционные события в наших штаммах сенной палочки.

Построение нуклеотидного пангенома с помощью NPG-explorer

Чтобы построить НПГ были выполнены следующие команды:

Команда Описание Итоговый файл
npge -g npge.conf Создает файл с параметрами для построения пангенома. Параметр "WORKERS" был изменен с 2 на 1, а "MIN_IDENTITY" с 0.9 на 0.875 (число взято из файла, пролученного командой Examine) npge.conf
npge Prepare &> log_prepare Скачивает указанные в файле genomes.tsv геномные ДНК. log_prepare
npge Examine &> log_examine Оценивает сходство геномов log_examine
npge MakePangenome &> log_make Создает пангеном log_make
npge PostProcessing &> log_post Создает файлы с различной информацией о пангеноме log_post

Описание стабильного ядра нуклеотидного пангенома

Информация была взята из файла pangenome.info


Описание крупной делеции в каждом геноме

Информация была взята из файла pangenome.bi. После импорта файла в excel, оставляем в первой колонке блоки, которые начинаются на h и фильтруем длину делеции от большего к меньшему. Далее ищем подходящий блок для каждого штамма и анализируем с помощью программы qnpge. Результаты представлены ниже в таблице.

Геном Имя блока Длина делеции Имена делетированных генов
Bacillus subtilis strain TLO3 h4x57352 57352 5392 CDS GO004_04935 polyketide synthase
1860 CDS HWV68_09300 polyketide synthase
12599 CDS BKN48_19255 non-ribosomal peptide synthetase
Bacillus subtilis strain VV2 h4x11196 11196 Гены не были найдены. Далее был расмотрен блок h4x2673, но там тоже не было найдены гены. В итоге гены нашлись в блоке h4x2254. Информация представлена в строке ниже.
Bacillus subtilis strain VV2 h4x2254 2254 6001 CDS GO004_07980 peptide-binding protein
1250 CDS HWV68_06250 peptide-binding protein
14185 CDS CLD04_06655 peptide-binding protein
Bacillus subtilis strain H19 h4x3958 3958 Гены не были найдены. Далее был расмотрен блок h4x1043, но там тоже не было найдены гены. В итоге гены нашлись в блоке h4x875. Информация представлена в строке ниже.
Bacillus subtilis strain H19 h4x875 875 7946 CDS GO004_17705 zinc-ribbon domain-containing protein
3650 CDS HWV68_18250 zinc ribbon domain-containing protein
16377 CDS CLD04_17610 zinc ribbon domain-containing protein
10010 CDS BKN48_06310 hypothetical protein
Bacillus subtilis strain R31 h4x2989 2989 Гены не были найдены. Далее был расмотрен блок h4x2064 и там были найдены гены. Информация представлена в строке ниже.
Bacillus subtilis strain R31 h4x2064 2064 217 CDS HWV68_01340 DUF1906 domain-containing protein
13187 CDS CLD04_01675 hypothetical protein
11025 CDS BKN48_11385 hypothetical protein
Bacillus subtilis strain SP1 h4x2638 2638 Гены не были найдены. Далее был расмотрен блок h4x1766, но там тоже не было найдены гены. В итоге гены нашлись в блоке h4x991. Информация представлена в строке ниже
Bacillus subtilis strain SP1 h4x991 991 4608 CDS GO004_01000 penicillin-binding protein
15484 CDS CLD04_13150 penicillin-binding protein 2
9138 CDS BKN48_01950 penicillin-binding protein

Перестановка синтений в g-блоках

Необходимую информацию для поиска синтетий я взяла в файле blocks.blocks. Ниже в таблице можно увидеть несколько перестановок в g-блоках. Рассмотрим блок g5x619511. У всех штаммов, кроме VV2, расположение блока совпадает, а непосредственно у VV2, он смещен на 4 g-блока назад.

alignment

Ошибка аннотации гена

Это можно наблюдать в задании "Описание крупной делеции в каждом геноме". Но рассмотрим случай блока s5x35880. В нем для штаммов R31 и SP1 указано, что это repair protein Rad, для штамма TLO3 - domain-containing protein, для VV2 - гипотетический белок, а для H19 - ничего.