Выбран организм: Lactobacillus gasseri.
Штаммы: 4M13, HL20, HL70.
Сначала создан файл genomes.tsv
После по инструкции NPG были созданы последовательно файлы (настройки по умолчанию):
npge.conf -> log_prepare -> log_examine -> log_make -> log_post
pangenome.infoСтабильное ядро нуклеотидного пангенома:439
Процент нуклеотидов в ядре от общего числа всех нуклеотидов:74.21%
процент нуклеотидов в ядре от всей длины блоков:79.74%
Процент консервативных колонок в объединенном выравнивании s-блоков:94.38%
Геном | Имя блока, подтверждающего делецию | Длина делеции | Названия генов |
---|---|---|---|
4M13 | h2x2047 | 2047 | ABC transporter ATP-binding protein, helix-turn-helix transcriptional regulator, SPFH domain-containing protein |
HL70 | h2x1316 | 1316 | DUF4145 domain-containing protein, ORF6C domain-containing protein, C1 family peptidase |
HL20 | h2x25339 | 25339 | site-specific integrase, SHOCT domain-containing protein, antA/AntB antirepressor family protein |
На основе этого файла pangenome.bi, переведенного в tsv, я получила список крупных делеций.
Далее загрузила файл pangenome.bs
в программу NPG-explorer и нашла координаты этих блоков в организмах.По файлу features.embl нашла какие белки лежат в этих координатах.
Информацию о блоках можно найти в файле blocks.blocks
Случилась перестановка нескольких блоков.Они указаны на картинке разными цветами. Интересно, что в штаммах 4M13 и HL70 они располагаются на одном месте, а в HL20 на несколько блоков выше и не в том порядке, что в тех двух штаммах.
Чтобы сделать это задание, мне пришлось скачать всю папку с выполненными командами с кодомо (проще всего через sfpt командой get -r), установить себе qnpge и запустить на своем компьютере.
В результате открывается окно NPG-explorer (установленного заранее). Посмотрим на блок s3x42184. В штамме 4M13 есть ген camphor resistance protein CrcB, а у HL20 и HL70 там fluoride efflux transporter CrcB.
Блок h2x149n1. У 4M13 - capsular biosynthesis protein. У HL70 - ligosaccharide flippase family protein.
< img src="./pr10/qnpge1.jpg">
Возможно это произошло из-за ошибочного распознавание белка из-за некачественное распознавание генов. Предполагаю, что для определения верного варианта нужно взять больше близких видов.