В данном практикуме необходимо было описать крупные эволюционные события в геномах нескольких штаммов одного прокариотического организма. Для данного практикума я выбрал достаточно известный организм - Bacillus cereus (не такого известного, как сенная палочка (Bacillus subtilis), но всё же). Для справки: это почвенная грамположительная патогенная бактерия, которая является факультативным анаэробом. У людей вызывает тошноту, рвоту и диарею, но обычно пациент выздоравливает в течение суток (но бывают и печальные случаи). Я выбрал 4 штамма данного организма и подготовил входной файл genomes.tsv
Построение нуклеотидного пангенома с помощью NPG-explorer
Следуя инструкциям, был построен Нуклеотидный пангеном (НПГ). Результат и использованные команды представлены в виде таблицы.
Команда | Краткое описание | Итоговый файл |
---|---|---|
npge -g npge.conf | Создает файл 'npge.conf' с изменяемыми параметрами. Параметр WORKERS был изменён на 1, чтобы использовать только 1 процессор (по умолчанию значение равно "-1", что значит использование всех процессоров компьютера) | npge.conf |
npge Prepare &> log_prepare | Скачивает и переименовывает геномные ДНК | log_prepare |
npge Examine &> log_examine | Оценивает сходство геномов | log_examine |
npge MakePangenome &> log_make | Строит НПГ. Выполняет итерации, пока отличие нового пре-пангенома от предыдущего будет незначительным, менее 0.1% | log_make |
npge PostProcessing &> log_post | Создаёт файлы с аналитической информацией о пангеноме | log_post |
Таблица 1. Построение НПГ
Описание стабильного ядра нуклеотидного пангенома
Статистическая информация о блоках разных типов содержится в файле pangenome.info. Получившийся НПГ содержит в себе 4647 стабильный блок, размер нуклеотидного ядра - 37.88%, процент консервативных колонок в объединённом выравнивании s-блоков - 19.03%.
Описание самой крупной делеции в каждом геноме
Вся необходимая информация содержится в файле pangenomes.bi Файл был открыт при помощи excel для дальнейшего анализа. Поиск делеций стоит проводить в h-полустабильных блоках, так как они содержат по одному фрагменту из части геномов. Если в геноме одного из организмов этот блок полностью отсутсвует, то это соответсвует делеции. Из-за моей ошибки при выборе геномов, записи оказались неаннотироваными, так что имена генов я привести не смогу.
Рис. 1. Поиск делеций
Геном(ы) | Имя блока, подтверждающее делецию | Длина делеции |
---|---|---|
AH1273 и Rock3-28 | h2x17046 | 17046 |
Co1-1 и SGAir0263 | h2x10776 | 10776 |
Таблица 2. Описание делеции
Описание перестановки синтений (g-блоков) в одном или нескольких геномах
Вся информация лежит в файле blocks.blocks. При помощи excel и умных людей, умеющих писать макросы (ссылка) этот файл был обработан blocks.xlsx.
Ниже представлена переcтановка блоков g4x2097 и g4x1854.
Рис. 2. Пример для делеции.