Учебная страница курса биоинформатики,
год поступления 2014

1. Карта сходства двух геномов

blast2seq

2. Нуклеотидный пангеном

Описываю действия, считая, что пакет NPG-explorer установлен на компьютере. Например, он установлен на kodomo.

Особенность интерфейса NPG-explorer состоит в том, что все файлы лежат в одной директории и имеют фиксированные имена. Поэтому имена входных и выходных файлов, как правило, не указываются. Все программы должны быть запущены из специально созданной директории, содержащей созданный вами файл genomes.tsv

План действий коротко

#	Действие/команда	Результат
0	Выбрать геномы для сравнения	—
1	Зайти на kodomo или установить NPG-explorer на свой компьютер	—
2	Создать новую директорию	Для примера, ricketssii_npg
3	Создать файл genomes.tsv в директории ricketssii_npg	Файл с информацией откуда брать последовательности геномных ДНК и аннотации генов
4	npge -g npge.conf	Файл npge.conf с параметрами; в нем можно изменять значения параметров
5	npge Prepare	Скачать и переименовать геномные ДНК
6	npge Examine	Файл examine/identity_recommended.txt с оценкой сходства геномов
7	Коррекция параметров WORKERS, MIN_IDENTITY (возможно, и MIN_LENGTH)	WORKERS = 1 для kodomo; MIN_IDENTITY в соответствии с рекомендацией, п.6
7	npge MakePangenome	Нуклеотидный пангеном в файле pangenome/pangenome.bs
8	npge PostProcessing	Много файлов с аналитической информацией о пангеноме
9	qnpge	Визуализация пангенома

Рекомендации
- Скачайте таблицу геномов прокариот (см. семестр I)
- Откройте в Excel, отфильтруйте по колонке status значения "complete genomes" и "chromosomes"
- Выберите геномы, скопируйте информацию, нужную для genomes.tsv
- Если не хотите сложностей, то выбирайте геномы из одной хромосомы, в пределах до 5 MB
  - Можно взять штаммы видов Yersinia pestis, Rickettsia rickettsii, Helicobacter pylori и др.
- Если не боитесь сложностей, то выбирайте любые геномы, например, родственные вашей бактерии/архее
  - допустимы геномы с двумя и более хромосомами, и плазмидами и т.п.
  - геномы разных видов одного рода иногда имеют приемлемое сходство - доля консервативных позиций > 0.9 - тогда их можно взять
    - пример - род Brucella
    - иногда сходство хуже; такие генома не стоит брать в работу
  - все последовательности должны быть описаны в genomes.tsv
    - хромосомы или плазмиды считаются гомологичными, если у них одинаковые имена, см. формат
  - больший объем входных данных приводит к бОльшему времени работы программы
Формат genomes.tsv

all:embl:CP003309       Hino    chr1    c       Rickettsia rickettsii str. Hino
all:refseqn:CP003318.1  Hauke   chr1    c       Rickettsia rickettsii str. Hauke
all:embl:CP003311       Hlp2    chr1    c       Rickettsia rickettsii str. Hlp2
all:file:Rrickettsii_genomes/CP000766   Iowa    chr1    c       Rickettsia rickettsii str. Iowa

пять полей, разделители - табуляторы (а не пробелы)
all - значит, что и последовательности, и аннотации генов из одной записи (формат допускает скачивание из разных файлов)
embl - значит, что идентификатор INSDC - БД GeneBank или ENA; указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
refseqn - значит, что идентификатор БД Refseq (nucl); указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
file - значит, что использовать уже скачанный файл
Hino и т.п. - короткое название генома без пробелов, выдуманное составителем файла
chr1 - название хромосомы; должно быть одинаковым у гомологичных хромосом/плазмид из разных геномов
c - кольцевая; l - для линейных
Далее - полное название штамма

Параметры
- MIN_IDENTITY = Decimal('0.9') значит, что во всех блоки пангенома, кроме минорных m-блоков, доля консервативных позиций превышает 0.9
- Examine вычисляет долю консервативных позиций в малом числе блоков и предлагает значение параметра MIN_IDENTITY на 0.1 меньше
  - Не обязательно следовать рекомендации буквально, но уменьшить вычисленное значение, по крайней мере, на 0.5 стоит
- MIN_LENGTH = 100 значит, что все блоки пангенома, кроме минорных m-блоков, имеют не менее 100 позиций
- WORKERS = 1 значит, что задействовать один процессор. Это значение рекомендуется использовать на kodomo чтобы не заблокировать задания других студентов
  - WORKERS = -1 значит, что использовать все процессоры компьютера
npge MakePangenome выдает на stdout протокол выполнения. Рекомендуется его сохранить в файле: npge MakePangenome > log
Аналитические файлы с полезной информацией
- pangenome/pangenome.info содержит сводную информацию про все типы блоков:
  - s-блоки - стабильные (коровые) блоки, по одному фрагменту из каждого генома
  - h-блоки - "полустабильные" блоки - по одному фрагменту из части геномов
  - u-блоки - и не блоки вовсе, а уникальные последовательности из одного генома,у них нет гомологов среди всех геномов, кроме самой себя
  - r- блоки - блоки с повторами, по крайней мере, в одном геноме
  - m-блоки - минорные блоки - короткие (<MIN_LENGTH) блоки, которые не удается включить в другие блоки
- идентификатор блока r34x1201 устроен так: r - тип блока (от repeat); 34 фрагмента в блоке; 1201 позиций в выравнивании блока; иногда приходится добавлять "n1", "n2" и т.п. на конце чтобы сохранить уникальность имен
- pangenome/pangenome.bi содержит информацию по каждому блоку, включая информацию фрагменты каких геномов входят в блок;удобен для
  - поиска крупных делеций/вставок (h-блоки и u-блоки)
  - анализа блоков с повторами
- Список глобальных блоков - синтений - см. в global-blocks/blocks.gbi
  - g-блоки (глобальные блоки) состоят из последовательно идущих во всех геномах s-блоков, перемежающихся блоками других типов (r-, h-, u- и m-)
- Последовательность глобальных блоков в каждом геноме см. в файле global-blocks/blocks.blocks. Для ответов на вопросы его удобно взять в Excel, транспонировать и выкинуть строчки, не содержащие g-блоков.
Визуализатор qnpge запускается в рабочей директории (ricketssii_npg в примере) БЕЗ ПАРАМЕТРОВ.
- Версия NPG-explorer'а под Win запаздывает по сравнению с версией под linux. Если дома Win то можно поступить так.
  - Запустить все программы, кроме qnpge, на kodomo
  - Скопировать результаты на свой компьютер
  - Скачать на свой компьютер NPG-explorer под Win, предпоследнюю версию - как рекомендуется на сайте
  - Возможно, получится скачать только файл qnpge.exe с диска /P.../pr10 и положить в доректорию с пангеномом
  - Запустить qnpge
- Описывать графический интерфейс - неблагодарное занятие; и не буду это делать. qnpge позволяет:
  - искать по названию блока, гена или по последовательности (требуется точное совпадение)
  - сортировать таблицу блоков по любой колонке
  - копировать последовательности из нижнего окна: целые группы блоков из правого верхнего
  - показывать имена генов; сами гены выделены белым шрифтом в нижнем окне с выравниванием блока; разберитесь, как указывается их ориентация
  - быстро перемешаться в блока с выравниванием; home, end, ctrl или shift + стрелочки
  - переключать выравнивание имен блоков с глобальных блоков вдоль хромосомы к выравниванию обычных блоков внутри глобального или промежуточного i-блока

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

1. Карта сходства двух геномов

2. Нуклеотидный пангеном

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2014

1. Карта сходства двух геномов

2. Нуклеотидный пангеном

Учебная страница курса биоинформатики,
год поступления 2014