Учебная страница курса биоинформатики,
год поступления 2015
Советы по выполнению задания 2
2a. Построение карты локального сходства
Используйте blast2seq, алгоритм blastn, на сайте NCBI. Изменение параметров поиска позволяет отфильтровать слабосходные участки и тем самым, упростить и улучшить карту.
- Карта строится быстро. Поэтому можно просмотреть несколько карт, чтобы выбрать подходящие геномы. Не показательны (i) практически совпадающие геномы - одна диагональ почти максимальной длины; (ii) очень далекие геномы - только короткие диагональки небольшой суммарной длины; Это может значить, что протяженные синтеничные участки не находятся из-за недостаточного сходства нуклеотидных последовательностей.
- Если у бактерии две хромосомы или есть плазмиды, то можно ограничиться парой гомологичных хромосом, по одрой из каждой бактерии (археи)
- Следите, чтобы хромосомы были собраны полностью - одна последовательность, а не много контигов!
- Если крупных событий много - опишите 3 - 5, наиболее интересных для вас. Указывайте фрагменты их координатами в геномах. Координаты указаны в выравниваниях.
- Сходство найдите как среднее сходство по нескольким наиболее длинным выравниваниям
- ДОПОЛНИТЕЛЬНОЕ. Возможные варианты ответа. (i) Это не вставка, а делеция в одном геноме или в геноме общего предка нескольких близкородственных геномов. (ii) Это вставка за счет горизонтального переноса из далеких геномов в данный геном или в общего предка его и нескольких близкородственных геномов. Найдите способ проверить какой ответ более вероятен.
2b. Построение нуклеотидного пангенома
Как выбрать геномы
В таблице содержится список всех прокариот, геномы которых собраны до хромосом. Выбирайте бактерии одного вида с одной хромосомой.
Описываю действия, считая, что пакет NPG-explorer установлен на компьютере. Например, он установлен на kodomo.
Особенность интерфейса NPG-explorer состоит в том, что все файлы лежат в одной директории и имеют фиксированные имена. Поэтому имена входных и выходных файлов, как правило, не указываются. Все программы должны быть запущены из специально созданной директории, содержащей созданный вами файл genomes.tsv
План действий коротко
# |
Действие/команда |
Результат |
0 |
Выбрать геномы для сравнения |
— |
1 |
Зайти на kodomo или установить NPG-explorer на свой компьютер |
— |
2 |
Создать новую директорию |
Для примера, ricketssii_npg |
3 |
Создать файл genomes.tsv в директории ricketssii_npg |
Файл с информацией откуда брать последовательности геномных ДНК и аннотации генов |
4 |
npge -g npge.conf |
Создает файл npge.conf с параметрами; в нем можно изменять значения параметров |
5 |
npge Prepare |
Скачать и переименовать геномные ДНК |
6 |
npge Examine |
Создает файл examine/identity_recommended.txt с оценкой сходства геномов |
7 |
Коррекция параметров WORKERS, MIN_IDENTITY (возможно, и MIN_LENGTH) |
WORKERS = 1 для kodomo; MIN_IDENTITY в соответствии с рекомендацией, п.6 |
7 |
npge MakePangenome |
Нуклеотидный пангеном в файле pangenome/pangenome.bs |
8 |
npge PostProcessing |
Много файлов с аналитической информацией о пангеноме |
9 |
qnpge |
Визуализация пангенома |
Как подготовить единственный входной файл genomes.tsv
Формат genomes.tsv
all:embl:CP003309 Hino chr1 c Rickettsia rickettsii str. Hino all:refseqn:CP003318.1 Hauke chr1 c Rickettsia rickettsii str. Hauke all:embl:CP003311 Hlp2 chr1 c Rickettsia rickettsii str. Hlp2 all:file:Rrickettsii_genomes/CP000766 Iowa chr1 c Rickettsia rickettsii str. Iowa
- пять полей, разделители - табуляторы (а не пробелы)
- all - значит, что и последовательности, и аннотации генов берутся из одной и той же записи (формат допускает скачивание из разных файлов)
embl - значит, что идентификатор INSDC - БД GeneBank или ENA; указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
- refseqn - значит, что идентификатор БД Refseq (nucl); указывайте универсальные идентификаторы INSDC (не те, которые NC_...)
- file - значит, что использовать уже скачанный файл
- Hino и т.п. - короткое название генома без пробелов, выдуманное составителем файла
- chr1 - название хромосомы; должно быть одинаковым у гомологичных хромосом/плазмид из разных геномов
- c - кольцевая; l - для линейных
- Далее - полное название штамма
Параметры, которые можно менять в файле npge.config
- MIN_IDENTITY = Decimal('0.9') значит, что во всех блоки пангенома, кроме минорных m-блоков, доля консервативных позиций превышает 0.9
- Examine вычисляет долю консервативных позиций в малом числе блоков и предлагает значение параметра MIN_IDENTITY на 0.1 меньше
- Не обязательно следовать рекомендации буквально, но уменьшить вычисленное значение, по крайней мере, на 0.05 стоит
- MIN_LENGTH = 100 значит, что все блоки пангенома, кроме минорных m-блоков, имеют не менее 100 позиций
- WORKERS = 1 значит, что задействовать один процессор. Это значение рекомендуется использовать на kodomo чтобы не заблокировать задания других студентов
- WORKERS = -1 значит, что использовать все процессоры компьютера
npge MakePangenome выдает на stdout протокол выполнения. Рекомендуется его сохранить в файле: npge MakePangenome > log
Аналитические файлы с полезной информацией
- pangenome/pangenome.info содержит сводную информацию про все типы блоков:
- s-блоки - стабильные (коровые) блоки, по одному фрагменту из каждого генома
- h-блоки - "полустабильные" блоки - по одному фрагменту из части геномов
- u-блоки - и не блоки вовсе, а уникальные последовательности из одного генома,у них нет гомологов среди всех геномов, кроме самой себя
- r-блоки - блоки с повторами, по крайней мере, в одном геноме
m-блоки - минорные блоки - короткие (<MIN_LENGTH) блоки, которые не удается включить в другие блоки
- идентификатор блока r34x1201 устроен так: r - тип блока (от repeat); 34 фрагмента в блоке; 1201 позиций в выравнивании блока; иногда приходится добавлять "n1", "n2" и т.п. на конце чтобы сохранить уникальность имен
- pangenome/pangenome.bi содержит информацию по каждому блоку, включая информацию фрагменты каких геномов входят в блок;удобен для
- поиска крупных делеций/вставок (h-блоки и u-блоки)
- анализа блоков с повторами
- Список глобальных блоков - синтений - см. в global-blocks/blocks.gbi
- g-блоки (глобальные блоки) состоят из последовательно идущих во всех геномах s-блоков, перемежающихся блоками других типов (r-, h-, u- и m-)
- Последовательность глобальных блоков в каждом геноме см. в файле global-blocks/blocks.blocks. Для ответов на вопросы его удобно взять в Excel, транспонировать и выкинуть строчки, не содержащие g-блоков.
Визуализатор qnpge запускается в рабочей директории (ricketssii_npg в примере) БЕЗ ПАРАМЕТРОВ.
- Версия NPG-explorer'а под Win запаздывает по сравнению с версией под linux. Если дома Win то можно поступить так.
- Запустить все программы, кроме qnpge, на kodomo
- Скопировать результаты на свой компьютер
- Скачать на свой компьютер NPG-explorer под Win, предпоследнюю версию - как рекомендуется на сайте
- Возможно, получится скачать только файл qnpge.exe с диска /P.../pr10 и положить в доректорию с пангеномом
- Запустить qnpge
- Описывать графический интерфейс - неблагодарное занятие; и не буду это делать. qnpge позволяет:
- искать по названию блока, гена или по последовательности (требуется точное совпадение)
- сортировать таблицу блоков по любой колонке
- копировать последовательности из нижнего окна: целые группы блоков из правого верхнего
- показывать имена генов; сами гены выделены белым шрифтом в нижнем окне с выравниванием блока; разберитесь, как указывается их ориентация
- быстро перемешаться в блока с выравниванием; home, end, ctrl или shift + стрелочки
- переключать выравнивание имен блоков с глобальных блоков вдоль хромосомы к выравниванию обычных блоков внутри глобального или промежуточного i-блока
- В отчёт включите:
- описание синтеничных участков (g-блоков):
- число g-блоков,
- фрагмент выравнивания g-блоков с объяснением
- описание ядра пангенома (объединения s-блоков):
- число s-блоков
- размер ядра - процент входных последовательностей, вошедших в s-блоки
- сходство геномов - процент консервативных позиций в объединенном выравнивании s-блоков
- пример одного блока с повторами (r-блока) с объяснением
- описание синтеничных участков (g-блоков):
описание повторов - на 1-2 примерах r-блоков;
- один пример крупной делеций (делеция - в геномах, не вошедших в h-блок)
- один пример последовательности, имеющейся только в одном геноме
2b. ДОПОЛНИТЕЛЬНОЕ(*) Один пример расхождений между аннотациями генов с гомологичными последовательностями