Main/npge - KodomoWiki

Построение нуклеотидного пангенома

Как выбрать геномы

Выбирайте бактерии одного вида с одной хромосомой.

Описываю действия, считая, что пакет NPG-explorer установлен на компьютере.

Особенность интерфейса NPG-explorer состоит в том, что все файлы лежат в одной директории и имеют фиксированные имена. Поэтому имена входных и выходных файлов, как правило, не указываются. Все программы должны быть запущены из специально созданной директории, содержащей созданный вами файл genomes.tsv

План действий коротко

#	Действие/команда	Результат
0	Выбрать геномы для сравнения	—
1	Зайти на kodomo или установить NPG-explorer на свой компьютер	—
2	Создать новую директорию	Для примера, ricketssii_npg
3	Создать файл genomes.tsv в директории ricketssii_npg	Файл с информацией откуда брать последовательности геномных ДНК и аннотации генов
4	npge -g npge.conf	Создает файл npge.conf с параметрами; в нем можно изменять значения параметров
5	npge Prepare	Скачать и переименовать геномные ДНК
6	npge Examine	Создает файл examine/identity_recommended.txt с оценкой сходства геномов
7	Коррекция параметров WORKERS, MIN_IDENTITY (возможно, и MIN_LENGTH)	WORKERS = 1 для kodomo; MIN_IDENTITY в соответствии с рекомендацией, п.6
7	npge MakePangenome	Нуклеотидный пангеном в файле pangenome/pangenome.bs
8	npge PostProcessing	Много файлов с аналитической информацией о пангеноме
9	qnpge	Визуализация пангенома

Как подготовить единственный входной файл genomes.tsv

Формат genomes.tsv

all:embl:CP003309       Hino    chr1    c       Rickettsia rickettsii str. Hino
all:refseqn:CP003318.1  Hauke   chr1    c       Rickettsia rickettsii str. Hauke
all:embl:CP003311       Hlp2    chr1    c       Rickettsia rickettsii str. Hlp2
all:file:Rrickettsii_genomes/CP000766   Iowa    chr1    c       Rickettsia rickettsii str. Iowa

пять полей, разделители - табуляторы (а не пробелы)
all - значит, что и последовательности, и аннотации генов берутся из одной и той же записи (формат допускает скачивание из разных файлов)
embl - значит, что идентификатор INSDC - БД GeneBank или ENA; указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
refseqn - значит, что идентификатор БД Refseq (nucl); указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
file - значит, что использовать уже скачанный файл
Hino и т.п. - короткое название генома без пробелов, выдуманное составителем файла
chr1 - название хромосомы; должно быть одинаковым у гомологичных хромосом/плазмид из разных геномов
c - кольцевая; l - для линейных
Далее - полное название штамма

Параметры, которые можно менять в файле npge.config

MIN_IDENTITY = Decimal('0.9') значит, что во всех блоки пангенома, кроме минорных m-блоков, доля консервативных позиций превышает 0.9
Examine вычисляет долю консервативных позиций в малом числе блоков и предлагает значение параметра MIN_IDENTITY на 0.1 меньше
- Не обязательно следовать рекомендации буквально, но уменьшить вычисленное значение, по крайней мере, на 0.05 стоит
MIN_LENGTH = 100 значит, что все блоки пангенома, кроме минорных m-блоков, имеют не менее 100 позиций
WORKERS = 1 значит, что задействовать один процессор. Это значение рекомендуется использовать на kodomo чтобы не заблокировать задания других студентов
- WORKERS = -1 значит, что использовать все процессоры компьютера

npge MakePangenome выдает на stdout протокол выполнения. Рекомендуется его сохранить в файле: npge MakePangenome > log

Аналитические файлы с полезной информацией

pangenome/pangenome.info содержит сводную информацию про все типы блоков:
- s-блоки - стабильные (коровые) блоки, по одному фрагменту из каждого генома
- h-блоки - "полустабильные" блоки - по одному фрагменту из части геномов
- u-блоки - и не блоки вовсе, а уникальные последовательности из одного генома,у них нет гомологов среди всех геномов, кроме самой себя
- r-блоки - блоки с повторами, по крайней мере, в одном геноме
- m-блоки - минорные блоки - короткие (<MIN_LENGTH) блоки, которые не удается включить в другие блоки
идентификатор блока r34x1201 устроен так: r - тип блока (от repeat); 34 фрагмента в блоке; 1201 позиций в выравнивании блока; иногда приходится добавлять "n1", "n2" и т.п. на конце чтобы сохранить уникальность имен
pangenome/pangenome.bi содержит информацию по каждому блоку, включая информацию фрагменты каких геномов входят в блок;удобен для
- поиска крупных делеций/вставок (h-блоки и u-блоки)
- анализа блоков с повторами
Список глобальных блоков - синтений - см. в global-blocks/blocks.gbi
- g-блоки (глобальные блоки) состоят из последовательно идущих во всех геномах s-блоков, перемежающихся блоками других типов (r-, h-, u- и m-)
Последовательность глобальных блоков в каждом геноме см. в файле global-blocks/blocks.blocks. Для ответов на вопросы его удобно взять в Excel, транспонировать и выкинуть строчки, не содержащие g-блоков.

Визуализатор qnpge запускается в рабочей директории (ricketssii_npg в примере) БЕЗ ПАРАМЕТРОВ.

Версия NPG-explorer'а под Win запаздывает по сравнению с версией под linux. Если дома Win то можно поступить так.
- Запустить все программы, кроме qnpge, на kodomo
- Скопировать результаты на свой компьютер
- Скачать на свой компьютер NPG-explorer под Win, предпоследнюю версию - как рекомендуется на сайте
- Возможно, получится скачать только файл qnpge.exe с диска /P.../pr10 и положить в доректорию с пангеномом
- Запустить qnpge
Описывать графический интерфейс - неблагодарное занятие; и не буду это делать. qnpge позволяет:
- искать по названию блока, гена или по последовательности (требуется точное совпадение)
- сортировать таблицу блоков по любой колонке
- копировать последовательности из нижнего окна: целые группы блоков из правого верхнего
- показывать имена генов; сами гены выделены белым шрифтом в нижнем окне с выравниванием блока; разберитесь, как указывается их ориентация
- быстро перемешаться в блока с выравниванием; home, end, ctrl или shift + стрелочки
- переключать выравнивание имен блоков с глобальных блоков вдоль хромосомы к выравниванию обычных блоков внутри глобального или промежуточного i-блока

Kodomo

Пользователь

Построение нуклеотидного пангенома