Учебная страница курса биоинформатики,
год поступления 2014
1. Карта сходства двух геномов
blast2seq
2. Нуклеотидный пангеном
Описываю действия, считая, что пакет NPG-explorer установлен на компьютере. Например, он установлен на kodomo.
Особенность интерфейса NPG-explorer состоит в том, что все файлы лежат в одной директории и имеют фиксированные имена. Поэтому имена входных и выходных файлов, как правило, не указываются. Все программы должны быть запущены из специально созданной директории, содержащей созданный вами файл genomes.tsv
План действий коротко
# |
Действие/команда |
Результат |
0 |
Выбрать геномы для сравнения |
— |
1 |
Зайти на kodomo или установить NPG-explorer на свой компьютер |
— |
2 |
Создать новую директорию |
Для примера, ricketssii_npg |
3 |
Создать файл genomes.tsv в директории ricketssii_npg |
Файл с информацией откуда брать последовательности геномных ДНК и аннотации генов |
4 |
npge -g npge.conf |
Файл npge.conf с параметрами; в нем можно изменять значения параметров |
5 |
npge Prepare |
Скачать и переименовать геномные ДНК |
6 |
npge Examine |
Файл examine/identity_recommended.txt с оценкой сходства геномов |
7 |
Коррекция параметров WORKERS, MIN_IDENTITY (возможно, и MIN_LENGTH) |
WORKERS = 1 для kodomo; MIN_IDENTITY в соответствии с рекомендацией, п.6 |
7 |
npge MakePangenome |
Нуклеотидный пангеном в файле pangenome/pangenome.bs |
8 |
npge PostProcessing |
Много файлов с аналитической информацией о пангеноме |
9 |
qnpge |
Визуализация пангенома |
Рекомендации
Скачайте таблицу геномов прокариот (см. семестр I)
- Откройте в Excel, отфильтруйте по колонке status значения "complete genomes" и "chromosomes"
- Выберите геномы, скопируйте информацию, нужную для genomes.tsv
- Если не хотите сложностей, то выбирайте геномы из одной хромосомы, в пределах до 5 MB
- Можно взять штаммы видов Yersinia pestis, Rickettsia rickettsii, Helicobacter pylori и др.
- Если не боитесь сложностей, то выбирайте любые геномы, например, родственные вашей бактерии/архее
- допустимы геномы с двумя и более хромосомами, и плазмидами и т.п.
геномы разных видов одного рода иногда имеют приемлемое сходство - доля консервативных позиций > 0.9 - тогда их можно взять
- пример - род Brucella
- иногда сходство хуже; такие генома не стоит брать в работу
- все последовательности должны быть описаны в genomes.tsv
- хромосомы или плазмиды считаются гомологичными, если у них одинаковые имена, см. формат
- больший объем входных данных приводит к бОльшему времени работы программы
Формат genomes.tsv
all:embl:CP003309 Hino chr1 c Rickettsia rickettsii str. Hino all:refseqn:CP003318.1 Hauke chr1 c Rickettsia rickettsii str. Hauke all:embl:CP003311 Hlp2 chr1 c Rickettsia rickettsii str. Hlp2 all:file:Rrickettsii_genomes/CP000766 Iowa chr1 c Rickettsia rickettsii str. Iowa
- пять полей, разделители - табуляторы (а не пробелы)
- all - значит, что и последовательности, и аннотации генов из одной записи (формат допускает скачивание из разных файлов)
embl - значит, что идентификатор INSDC - БД GeneBank или ENA; указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
- refseqn - значит, что идентификатор БД Refseq (nucl); указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
- file - значит, что использовать уже скачанный файл
- Hino и т.п. - короткое название генома без пробелов, выдуманное составителем файла
- chr1 - название хромосомы; должно быть одинаковым у гомологичных хромосом/плазмид из разных геномов
- c - кольцевая; l - для линейных
- Далее - полное название штамма
Параметры
- MIN_IDENTITY = Decimal('0.9') значит, что во всех блоки пангенома, кроме минорных m-блоков, доля консервативных позиций превышает 0.9
- Examine вычисляет долю консервативных позиций в малом числе блоков и предлагает значение параметра MIN_IDENTITY на 0.1 меньше
- Не обязательно следовать рекомендации буквально, но уменьшить вычисленное значение, по крайней мере, на 0.5 стоит
- MIN_LENGTH = 100 значит, что все блоки пангенома, кроме минорных m-блоков, имеют не менее 100 позиций
- WORKERS = 1 значит, что задействовать один процессор. Это значение рекомендуется использовать на kodomo чтобы не заблокировать задания других студентов
- WORKERS = -1 значит, что использовать все процессоры компьютера
npge MakePangenome выдает на stdout протокол выполнения. Рекомендуется его сохранить в файле: npge MakePangenome > log
Аналитические файлы с полезной информацией
- pangenome/pangenome.info содержит сводную информацию про все типы блоков:
- s-блоки - стабильные (коровые) блоки, по одному фрагменту из каждого генома
- h-блоки - "полустабильные" блоки - по одному фрагменту из части геномов
- u-блоки - и не блоки вовсе, а уникальные последовательности из одного генома,у них нет гомологов среди всех геномов, кроме самой себя
- r- блоки - блоки с повторами, по крайней мере, в одном геноме
m-блоки - минорные блоки - короткие (<MIN_LENGTH) блоки, которые не удается включить в другие блоки
- идентификатор блока r34x1201 устроен так: r - тип блока (от repeat); 34 фрагмента в блоке; 1201 позиций в выравнивании блока; иногда приходится добавлять "n1", "n2" и т.п. на конце чтобы сохранить уникальность имен
- pangenome/pangenome.bi содержит информацию по каждому блоку, включая информацию фрагменты каких геномов входят в блок;удобен для
- поиска крупных делеций/вставок (h-блоки и u-блоки)
- анализа блоков с повторами
- Список глобальных блоков - синтений - см. в global-blocks/blocks.gbi
- g-блоки (глобальные блоки) состоят из последовательно идущих во всех геномах s-блоков, перемежающихся блоками других типов (r-, h-, u- и m-)
- Последовательность глобальных блоков в каждом геноме см. в файле global-blocks/blocks.blocks. Для ответов на вопросы его удобно взять в Excel, транспонировать и выкинуть строчки, не содержащие g-блоков.
- pangenome/pangenome.info содержит сводную информацию про все типы блоков:
Визуализатор qnpge запускается в рабочей директории (ricketssii_npg в примере) БЕЗ ПАРАМЕТРОВ.
- Версия NPG-explorer'а под Win запаздывает по сравнению с версией под linux. Если дома Win то можно поступить так.
- Запустить все программы, кроме qnpge, на kodomo
- Скопировать результаты на свой компьютер
- Скачать на свой компьютер NPG-explorer под Win, предпоследнюю версию - как рекомендуется на сайте
- Возможно, получится скачать только файл qnpge.exe с диска /P.../pr10 и положить в доректорию с пангеномом
- Запустить qnpge
- Описывать графический интерфейс - неблагодарное занятие; и не буду это делать. qnpge позволяет:
- искать по названию блока, гена или по последовательности (требуется точное совпадение)
- сортировать таблицу блоков по любой колонке
- копировать последовательности из нижнего окна: целые группы блоков из правого верхнего
- показывать имена генов; сами гены выделены белым шрифтом в нижнем окне с выравниванием блока; разберитесь, как указывается их ориентация
- быстро перемешаться в блока с выравниванием; home, end, ctrl или shift + стрелочки
- переключать выравнивание имен блоков с глобальных блоков вдоль хромосомы к выравниванию обычных блоков внутри глобального или промежуточного i-блока
- Версия NPG-explorer'а под Win запаздывает по сравнению с версией под linux. Если дома Win то можно поступить так.