Учебная страница курса биоинформатики,
год поступления 2015

Семестры Студенты Преподаватели

Советы по выполнению задания 2

2a. Построение карты локального сходства

Используйте blast2seq, алгоритм blastn, на сайте NCBI. Изменение параметров поиска позволяет отфильтровать слабосходные участки и тем самым, упростить и улучшить карту.
Карта строится быстро. Поэтому можно просмотреть несколько карт, чтобы выбрать подходящие геномы. Не показательны (i) практически совпадающие геномы - одна диагональ почти максимальной длины; (ii) очень далекие геномы - только короткие диагональки небольшой суммарной длины; Это может значить, что протяженные синтеничные участки не находятся из-за недостаточного сходства нуклеотидных последовательностей.
Если у бактерии две хромосомы или есть плазмиды, то можно ограничиться парой гомологичных хромосом, по одрой из каждой бактерии (археи)
Следите, чтобы хромосомы были собраны полностью - одна последовательность, а не много контигов!
Если крупных событий много - опишите 3 - 5, наиболее интересных для вас. Указывайте фрагменты их координатами в геномах. Координаты указаны в выравниваниях.
Сходство найдите как среднее сходство по нескольким наиболее длинным выравниваниям
ДОПОЛНИТЕЛЬНОЕ. Возможные варианты ответа. (i) Это не вставка, а делеция в одном геноме или в геноме общего предка нескольких близкородственных геномов. (ii) Это вставка за счет горизонтального переноса из далеких геномов в данный геном или в общего предка его и нескольких близкородственных геномов. Найдите способ проверить какой ответ более вероятен.

2b. Построение нуклеотидного пангенома

Как выбрать геномы

В таблице содержится список всех прокариот, геномы которых собраны до хромосом. Выбирайте бактерии одного вида с одной хромосомой.

Описываю действия, считая, что пакет NPG-explorer установлен на компьютере. Например, он установлен на kodomo.

Особенность интерфейса NPG-explorer состоит в том, что все файлы лежат в одной директории и имеют фиксированные имена. Поэтому имена входных и выходных файлов, как правило, не указываются. Все программы должны быть запущены из специально созданной директории, содержащей созданный вами файл genomes.tsv

План действий коротко

#	Действие/команда	Результат
0	Выбрать геномы для сравнения	—
1	Зайти на kodomo или установить NPG-explorer на свой компьютер	—
2	Создать новую директорию	Для примера, ricketssii_npg
3	Создать файл genomes.tsv в директории ricketssii_npg	Файл с информацией откуда брать последовательности геномных ДНК и аннотации генов
4	npge -g npge.conf	Создает файл npge.conf с параметрами; в нем можно изменять значения параметров
5	npge Prepare	Скачать и переименовать геномные ДНК
6	npge Examine	Создает файл examine/identity_recommended.txt с оценкой сходства геномов
7	Коррекция параметров WORKERS, MIN_IDENTITY (возможно, и MIN_LENGTH)	WORKERS = 1 для kodomo; MIN_IDENTITY в соответствии с рекомендацией, п.6
7	npge MakePangenome	Нуклеотидный пангеном в файле pangenome/pangenome.bs
8	npge PostProcessing	Много файлов с аналитической информацией о пангеноме
9	qnpge	Визуализация пангенома

Как подготовить единственный входной файл genomes.tsv

Формат genomes.tsv

all:embl:CP003309       Hino    chr1    c       Rickettsia rickettsii str. Hino
all:refseqn:CP003318.1  Hauke   chr1    c       Rickettsia rickettsii str. Hauke
all:embl:CP003311       Hlp2    chr1    c       Rickettsia rickettsii str. Hlp2
all:file:Rrickettsii_genomes/CP000766   Iowa    chr1    c       Rickettsia rickettsii str. Iowa

пять полей, разделители - табуляторы (а не пробелы)
all - значит, что и последовательности, и аннотации генов берутся из одной и той же записи (формат допускает скачивание из разных файлов)
embl - значит, что идентификатор INSDC - БД GeneBank или ENA; указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
refseqn - значит, что идентификатор БД Refseq (nucl); указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
file - значит, что использовать уже скачанный файл
Hino и т.п. - короткое название генома без пробелов, выдуманное составителем файла
chr1 - название хромосомы; должно быть одинаковым у гомологичных хромосом/плазмид из разных геномов
c - кольцевая; l - для линейных
Далее - полное название штамма

Параметры, которые можно менять в файле npge.config

MIN_IDENTITY = Decimal('0.9') значит, что во всех блоки пангенома, кроме минорных m-блоков, доля консервативных позиций превышает 0.9
Examine вычисляет долю консервативных позиций в малом числе блоков и предлагает значение параметра MIN_IDENTITY на 0.1 меньше
- Не обязательно следовать рекомендации буквально, но уменьшить вычисленное значение, по крайней мере, на 0.05 стоит
MIN_LENGTH = 100 значит, что все блоки пангенома, кроме минорных m-блоков, имеют не менее 100 позиций
WORKERS = 1 значит, что задействовать один процессор. Это значение рекомендуется использовать на kodomo чтобы не заблокировать задания других студентов
- WORKERS = -1 значит, что использовать все процессоры компьютера

npge MakePangenome выдает на stdout протокол выполнения. Рекомендуется его сохранить в файле: npge MakePangenome > log

Аналитические файлы с полезной информацией

pangenome/pangenome.info содержит сводную информацию про все типы блоков:
- s-блоки - стабильные (коровые) блоки, по одному фрагменту из каждого генома
- h-блоки - "полустабильные" блоки - по одному фрагменту из части геномов
- u-блоки - и не блоки вовсе, а уникальные последовательности из одного генома,у них нет гомологов среди всех геномов, кроме самой себя
- r-блоки - блоки с повторами, по крайней мере, в одном геноме
- m-блоки - минорные блоки - короткие (<MIN_LENGTH) блоки, которые не удается включить в другие блоки
идентификатор блока r34x1201 устроен так: r - тип блока (от repeat); 34 фрагмента в блоке; 1201 позиций в выравнивании блока; иногда приходится добавлять "n1", "n2" и т.п. на конце чтобы сохранить уникальность имен
pangenome/pangenome.bi содержит информацию по каждому блоку, включая информацию фрагменты каких геномов входят в блок;удобен для
- поиска крупных делеций/вставок (h-блоки и u-блоки)
- анализа блоков с повторами
Список глобальных блоков - синтений - см. в global-blocks/blocks.gbi
- g-блоки (глобальные блоки) состоят из последовательно идущих во всех геномах s-блоков, перемежающихся блоками других типов (r-, h-, u- и m-)
Последовательность глобальных блоков в каждом геноме см. в файле global-blocks/blocks.blocks. Для ответов на вопросы его удобно взять в Excel, транспонировать и выкинуть строчки, не содержащие g-блоков.

Визуализатор qnpge запускается в рабочей директории (ricketssii_npg в примере) БЕЗ ПАРАМЕТРОВ.

Версия NPG-explorer'а под Win запаздывает по сравнению с версией под linux. Если дома Win то можно поступить так.
- Запустить все программы, кроме qnpge, на kodomo
- Скопировать результаты на свой компьютер
- Скачать на свой компьютер NPG-explorer под Win, предпоследнюю версию - как рекомендуется на сайте
- Возможно, получится скачать только файл qnpge.exe с диска /P.../pr10 и положить в доректорию с пангеномом
- Запустить qnpge
Описывать графический интерфейс - неблагодарное занятие; и не буду это делать. qnpge позволяет:
- искать по названию блока, гена или по последовательности (требуется точное совпадение)
- сортировать таблицу блоков по любой колонке
- копировать последовательности из нижнего окна: целые группы блоков из правого верхнего
- показывать имена генов; сами гены выделены белым шрифтом в нижнем окне с выравниванием блока; разберитесь, как указывается их ориентация
- быстро перемешаться в блока с выравниванием; home, end, ctrl или shift + стрелочки
- переключать выравнивание имен блоков с глобальных блоков вдоль хромосомы к выравниванию обычных блоков внутри глобального или промежуточного i-блока

В отчёт включите:
- описание синтеничных участков (g-блоков):
  - число g-блоков,
  - фрагмент выравнивания g-блоков с объяснением
- описание ядра пангенома (объединения s-блоков):
  - число s-блоков
  - размер ядра - процент входных последовательностей, вошедших в s-блоки
  - сходство геномов - процент консервативных позиций в объединенном выравнивании s-блоков
- пример одного блока с повторами (r-блока) с объяснением

описание повторов - на 1-2 примерах r-блоков;

один пример крупной делеций (делеция - в геномах, не вошедших в h-блок)
один пример последовательности, имеющейся только в одном геноме

2b. ДОПОЛНИТЕЛЬНОЕ(*) Один пример расхождений между аннотациями генов с гомологичными последовательностями

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2015

Советы по выполнению задания 2

2a. Построение карты локального сходства

2b. Построение нуклеотидного пангенома

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2015

Советы по выполнению задания 2

2a. Построение карты локального сходства

2b. Построение нуклеотидного пангенома

Учебная страница курса биоинформатики,
год поступления 2015