NPG

Для анализа крупных эволюционных событий были взяты геномы 5 штаммов Bradyrhizobium japonicum. Ниже приведен файл genomes.tsv в котором указаны: база данных, AC, штамм, хромосома, тип ДНК (кольцевая/линейная) и полное название штамма.

Построение нуклеотидного пангенома

Постройка нуклеотидного пангенома происходила по последовательности команд ниже.

C:\Users\jakew\Desktop\npg\JW>npge -g npge.conf

C:\Users\jakew\Desktop\npg\JW>npge Prepare > log_prep.txt 2>&1

C:\Users\jakew\Desktop\npg\JW>npge Examine > log_ex.txt 2>&1

C:\Users\jakew\Desktop\npg\JW>echo "MIN_IDENTITY = 0.864"
"MIN_IDENTITY = 0.864"

C:\Users\jakew\Desktop\npg\JW>npge MakePangenome > log_pg.txt 2>&1

C:\Users\jakew\Desktop\npg\JW>npge PostProcessing > log_pp.txt 2>&1

C:\Users\jakew\Desktop\npg\JW>qnpge

Логи и конфиг после расчетов:

Основные файлы выдачи:

Стабильное ядро нуклеотидного пангенома

Описание самой крупной делеции в каждом геноме

Для решения данной задачи использовался язык программирования Python и библиотека Pandas.

Ниже представлены первые 5 блоков, которые храняться в файле pangenome.bi.

Для поиска самых длинных делеций сначала были убраны ненужные переменные, а из наблюдений оставлены только h-блоки.

После была создана новая переменная sum, которая считает сколько штаммов имеют данный блок у себя в геноме. Так как нужно найти такие блоки, чтобы их не было только в одном штамме, данные были отфильтрованы по значению переменной sum равному 4, то есть данный блок присутвует у 4 штаммов, а у одного - нет.

Сначала производился поиск делеций в штамме 5038, однако, по результатам фильтрации, оказалось, что данный штамм никогда не терял блок в одиночку. Всегда есть хотя бы один штамм, который терял этот же блок.

Далее штамм E109. Самой длинной делецией для данного штамма оказалась потеря блока h4x227n3 длинной 227. В этом блоке находились гены: у 5038 нет аннотации, BKD09_47320 transposase (J5), BJS_08812 transposase (SEMIA-5079) и BJ6T_88600 transposase (USDA-6).

Штамм J5 потерял блок длиной 16381 h4x16381. Гены: нет аннотации (5038), RN69_01300 transcriptional regulator (E109), BJS_05560 hypothetical protein (SEMIA-5079), BJ6T_02700 hypothetical protein (USDA-6).

Следующий штамм - SEMIA-5079 потерял блок длинной 9710 h4x9710. Гены: нет аннотации (5038), RN69_07820 3-oxoacyl-ACP reductase (E109), BKD09_11055 3-oxoacyl-ACP reductase (J5), BJ6T_15830 hypothetical protein (USDA-6).

У последнего штамма произошла делеция длинной 8873 в блоке h4x8873. Гены: нет аннотации (5038), RN69_43045 conjugal transfer protein TrbB (E109), BKD09_47710 P-type conjugative transfer ATPase TrbB (J5), BJS_08460 Conjugal transfer protein (SEMIA-5079).

Перестановка G-блока J5

У штамма J5 во время эволюционного процесса произошла перестановка длока g5x20648 на 188 позицию, в то время как у остальных штаммов этот блок находится на 194 позиции.

rebuild

Ошибка аннотации гена

Поиск производился по стабильным блокам. В блоке S5x12321 для штамма SEMIA-5079 указано, что эта последовательность Putative C4-dicarboxylate, в то время как у J5 и E109 - ABC transporter, а у остальных либо ничего (5038), либо гипотетический белок (USDA-6), при совпадении 95.71%.