Выравнивание геномов штаммов Bacillus subtilis

В качестве материала для выполнения заданий практикума были взяты геномы 4 штаммов Bacillus subtilis: MB9B1, CW14, BS34A и BEST3145.
Входной файл с геномами genomes.tsv

Далее согласно инструкции были выполнены команды для создания пангенома. Параметр MIN_IDENTITY был изменен на 0.839 в соответствии с рекомендацией в файле identity_recommended.txt.
Файл pangenome.bs доступен на кодомо в директории ~/term3/block2/credits/npg. Входные и выходные потоки были сохранены в log файлы, которые я предоставляю в отчете.

Описание стабильного ядра пангенома

В файле pangenome.info содержится аналитическая информация о блоках разных типов.

Описание крупных делеций

Нужная для выполнения этого задания информация была взята из файла pangenome.bi. С помощью Excel я выделила h-блоки и отсортировала их по убыванию. Больще всего делеций обнаружено для штамма CW14. Самая крупная делеция также была обнаружена в штамме CW14 и соответствует блоку h3x15208 в других штаммах. Блок состоит из 15208 колонок и содержит 52 гена, в таблице 1 приведены некоторые из них. Можно отметить, что участки блока, которые у MB9B1 аннотированы как DUF418 domain-containing protein и HXXEE domain-containing protein, у двух других штаммов являются гипотетическими белками. Последовательности у BS34A и BEST3145 идентичны аналогичным в геноме MB9B1, из чего можно предположить, что данные гены BS34A и BEST3145 кодируют DUF418 domain-containing protein и HXXEE domain-containing protein. Скорее всего это не ошибка аннотации, просто гены у BS34A и BEST3145 гены не были аннотированы.
Далее я рассмотрела блок h3x1210n1, отсутствующий у штамма MB9B1. Как видно из таблицы, у CW14 в этом блоке находится ген, кодирующий терминазу – фермент, встречающийся у бактериофагов. Терминазы отвечают за узнавание ДНК и инициацию процесса ее упаковки в головку фага. Присутствие фаговой терминазы наводит на мысль, что предок штамма был заражен бактеориофагом.

Таблица 1. Крупные делеции в геномах
Геном, у которого обнаружена делеция Имя блока Длина делеции (колонок) Имена делетированных генов
CW14 h3x15208 15208 sensor histidine kinase YrkQ (BEST3145 и BS34A), 1299 bp;
two-component system sensor histidine kinase (MB9B1), 1299 bp;
2886 CDS GII81_14405 hypothetical protein (MB9B1) - 138 bp, перекрытие с two-component system sensor histidine kinase;
hypothetical protein (BS34A и BEST3145), 1218 bp;
DUF418 domain-containing protein (MB9B1), 1218 bp;
HXXEE domain-containing protein (MB9B1), 477 bp;
hypothetical protein (BEST3145 и BS34A), 477 bp
11684 CDS BS34A_29030 multidrug resistance protein 2 (BS34A), 1203 bp;
GNAT family N-acetyltransferase (MB9B1), 558 bp;
putative NAD(P)H oxidoreductase YrkL (BEST3145), 525 bp;
general stress protein (MB9B1), 525 bp
MB9B1 h3x1210n1 1210 phage-like element PBSX protein XkdV (BS34A и BEST3145), 2064 bp;
terminase (CW14), 2064 bp
BEST3145 и BS34A h2x4913 4913 xylose isomerase (CW14), 822 bp;
TIM barrel protein (MB9B1), 822 bp;
MFS transporter (CW14 и MB9B1), 1344 bp;
LacI family DNA-binding transcriptional (MB9B1), 1005 bp;
transcriptional regulator (CW14), 1005 bp;
dehydrogenase (CW14 и MB9B1), 1026 bp

Можно заметить, что довольно часто делеции встречаются одновременно у BS34A и BEST3145, а также у CW14 и MB9B1, что может указывать на эволюционную близость этих штаммов. Данное предположение подкрепляется филогенетическим древом, которое посторил NPG, где четко видна близость штаммов BS34A и BEST3145. CW14 стоит немного особняком к остальным 3 штаммам, но он ближе к MB9B1.

fig1
Рисунок 1.Филогенетическое древо штаммов B. subtilis
Перестановка синтений

Как видно на рисунке 2, больше всего перестановок наблюдается для штамма CW14. Например, блок g4x104 у трех других штаммов находится в 147 колонке. Можно отметить еще и 112 колонку, содержащую два типа блоков – i2x5606 для BEST3145 и BS34A и i2x8991 для CW14 и MB9B1.
Отличие штамма CW14 от других также отчетливо видно на филогенетическом древе (рис. 1). Самая длинная ветвь у CW14 показывает, что данный штамм претерпел наибольшее количество различных мутаций и эволюционных преобразований.

fig2
Рисунок 2.Перестановки глобальных блоков в пангеноме 4 штаммов B. subtilis