Работа с пангеномом

1. Выберите 3-5 штаммов одного вида бактерий или архей с известными полностью собранными геномами

Выбран организм: Lactobacillus gasseri.

Штаммы: 4M13, HL20, HL70.

2. Построение нуклеотидного пангенома с помощью NPG-explorer.

Сначала создан файл genomes.tsv

После по инструкции NPG были созданы последовательно файлы (настройки по умолчанию):

npge.conf -> log_prepare -> log_examine -> log_make -> log_post

pangenome.info

3. Описание стабильного ядра нуклеотидного пангенома

Стабильное ядро нуклеотидного пангенома:439

Процент нуклеотидов в ядре от общего числа всех нуклеотидов:74.21%

процент нуклеотидов в ядре от всей длины блоков:79.74%

Процент консервативных колонок в объединенном выравнивании s-блоков:94.38%

4. Описание крупной делеции в каждом геноме

Геном Имя блока, подтверждающего делецию Длина делеции Названия генов
4M13 h2x2047 2047 ABC transporter ATP-binding protein, helix-turn-helix transcriptional regulator, SPFH domain-containing protein
HL70 h2x1316 1316 DUF4145 domain-containing protein, ORF6C domain-containing protein, C1 family peptidase
HL20 h2x25339 25339 site-specific integrase, SHOCT domain-containing protein, antA/AntB antirepressor family protein

На основе этого файла pangenome.bi, переведенного в tsv, я получила список крупных делеций.

Далее загрузила файл pangenome.bs

в программу NPG-explorer и нашла координаты этих блоков в организмах.

По файлу features.embl нашла какие белки лежат в этих координатах.

5. Описание одной перестановки синтений (g-блоков) в одном или нескольких геномах

Информацию о блоках можно найти в файле blocks.blocks

Случилась перестановка нескольких блоков.Они указаны на картинке разными цветами. Интересно, что в штаммах 4M13 и HL70 они располагаются на одном месте, а в HL20 на несколько блоков выше и не в том порядке, что в тех двух штаммах.

g-blocks

6. Приведите примеры ошибок аннотации гена (хотя бы один)

Чтобы сделать это задание, мне пришлось скачать всю папку с выполненными командами с кодомо (проще всего через sfpt командой get -r), установить себе qnpge и запустить на своем компьютере.

В результате открывается окно NPG-explorer (установленного заранее). Посмотрим на блок s3x42184. В штамме 4M13 есть ген camphor resistance protein CrcB, а у HL20 и HL70 там fluoride efflux transporter CrcB.

Блок h2x149n1. У 4M13 - capsular biosynthesis protein. У HL70 - ligosaccharide flippase family protein.

< img src="./pr10/qnpge1.jpg">

Возможно это произошло из-за ошибочного распознавание белка из-за некачественное распознавание генов. Предполагаю, что для определения верного варианта нужно взять больше близких видов.