В качестве материала для выполнения заданий практикума были взяты геномы 4 штаммов Bacillus subtilis: MB9B1, CW14, BS34A и BEST3145.
Входной файл с геномами genomes.tsv
Далее согласно инструкции были выполнены команды для создания пангенома. Параметр MIN_IDENTITY был изменен на 0.839 в соответствии с рекомендацией в файле identity_recommended.txt.
Файл pangenome.bs доступен на кодомо в директории ~/term3/block2/credits/npg. Входные и выходные потоки были сохранены в log файлы, которые я предоставляю в отчете.
В файле pangenome.info содержится аналитическая информация о блоках разных типов.
Нужная для выполнения этого задания информация была взята из файла pangenome.bi. С помощью Excel я выделила h-блоки и отсортировала их по убыванию. Больще всего делеций обнаружено для штамма CW14. Самая крупная делеция также была обнаружена в штамме CW14 и соответствует блоку h3x15208 в других штаммах. Блок состоит из 15208 колонок и содержит 52 гена, в таблице 1 приведены некоторые из них. Можно отметить, что участки блока, которые у MB9B1 аннотированы как DUF418 domain-containing protein и HXXEE domain-containing protein, у двух других штаммов являются гипотетическими белками. Последовательности у BS34A и BEST3145 идентичны аналогичным в геноме MB9B1, из чего можно предположить, что данные гены BS34A и BEST3145 кодируют DUF418 domain-containing protein и HXXEE domain-containing protein. Скорее всего это не ошибка аннотации, просто гены у BS34A и BEST3145 гены не были аннотированы.
Далее я рассмотрела блок h3x1210n1, отсутствующий у штамма MB9B1. Как видно из таблицы, у CW14 в этом блоке находится ген, кодирующий терминазу – фермент, встречающийся у бактериофагов. Терминазы отвечают за узнавание ДНК и инициацию процесса ее упаковки в головку фага. Присутствие фаговой терминазы наводит на мысль, что предок штамма был заражен бактеориофагом.
Таблица 1. Крупные делеции в геномах | |||
---|---|---|---|
Геном, у которого обнаружена делеция | Имя блока | Длина делеции (колонок) | Имена делетированных генов |
CW14 | h3x15208 | 15208 | sensor histidine kinase YrkQ (BEST3145 и BS34A), 1299 bp;
two-component system sensor histidine kinase (MB9B1), 1299 bp; 2886 CDS GII81_14405 hypothetical protein (MB9B1) - 138 bp, перекрытие с two-component system sensor histidine kinase; hypothetical protein (BS34A и BEST3145), 1218 bp; DUF418 domain-containing protein (MB9B1), 1218 bp; HXXEE domain-containing protein (MB9B1), 477 bp; hypothetical protein (BEST3145 и BS34A), 477 bp 11684 CDS BS34A_29030 multidrug resistance protein 2 (BS34A), 1203 bp; GNAT family N-acetyltransferase (MB9B1), 558 bp; putative NAD(P)H oxidoreductase YrkL (BEST3145), 525 bp; general stress protein (MB9B1), 525 bp |
MB9B1 | h3x1210n1 | 1210 | phage-like element PBSX protein XkdV (BS34A и BEST3145), 2064 bp;
terminase (CW14), 2064 bp |
BEST3145 и BS34A | h2x4913 | 4913 | xylose isomerase (CW14), 822 bp;
TIM barrel protein (MB9B1), 822 bp; MFS transporter (CW14 и MB9B1), 1344 bp; LacI family DNA-binding transcriptional (MB9B1), 1005 bp; transcriptional regulator (CW14), 1005 bp; dehydrogenase (CW14 и MB9B1), 1026 bp |
Можно заметить, что довольно часто делеции встречаются одновременно у BS34A и BEST3145, а также у CW14 и MB9B1, что может указывать на эволюционную близость этих штаммов. Данное предположение подкрепляется филогенетическим древом, которое посторил NPG, где четко видна близость штаммов BS34A и BEST3145. CW14 стоит немного особняком к остальным 3 штаммам, но он ближе к MB9B1.
Как видно на рисунке 2, больше всего перестановок наблюдается для штамма CW14. Например, блок g4x104 у трех других штаммов находится в 147 колонке. Можно отметить еще и 112 колонку, содержащую два типа блоков – i2x5606 для BEST3145 и BS34A и i2x8991 для CW14 и MB9B1.
Отличие штамма CW14 от других также отчетливо видно на филогенетическом древе (рис. 1). Самая длинная ветвь у CW14 показывает, что данный штамм претерпел наибольшее количество различных мутаций и эволюционных преобразований.