Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Инструкции пр. 10

1 Используйте базу данных Genome на NCBI, Browse by organism и свои знания о прокариотах :)


2 NPG-explorer установлен на kodomo. Можно построить нуклеотидный пангеном на kodomo. Однако визуализировать его удаленно командой qnpge не удастся, так как нужны специальные настройки для передачи графики с сервера на свой компьютер. Поэтому нужно установить NPG-explorer на свой компьютер. Либо построить НПГ на своем компьютере, либо скачать директорию с нуклеотидном пангеномом на свой компьютер, зайти в эту директорию и выполнить команду qnpge.

Если у вас Mac, то придется установить эмулятор linux, так как варианта под Mac у NPG-explorer нет. Узнайте как это делать, т.к. я не знаю.

Инструкция по установке NPG-explorer и построению НПГ здесь

Выдержки из инструкции

должны быть запущены в директории, содержащей файл genomes.tsv и имена входных и выходных файлов, как правило, не указываются.

План действий коротко

#

Действие/команда

Результат

1

Выбрать геномы, запомнить AC записей с аннотациями и последовательностями ДНК

 —

2

Создать новую директорию

Для примера, ricketssii_npg

3

Создать файл genomes.tsv в директории ricketssii_npg

Файл с информацией откуда брать последовательности геномных ДНК и аннотации генов

4

npge -g npge.conf

Создает файл npge.conf с параметрами; в нем можно изменять значения параметров

5

npge Prepare

Скачать и переименовать геномные ДНК

6

npge Examine

Создает файл examine/identity_recommended.txt с оценкой сходства геномов

7

Коррекция параметров WORKERS, MIN_IDENTITY (возможно, и MIN_LENGTH)

WORKERS указывает сколько процессоров занять, по умолчанию, WORKERS = -1, это значит все. WORKERS = 1 для kodomo; по умолчанию, MIN_IDENTITY = Decimal('0.9'), что значит не менее 90% абсолютно консервативных колонок в каждом мажорном блоке; можно ориентироваться на рекомендацию п.6

8

npge MakePangenome

Нуклеотидный пангеном - мнножество выравниваний блоков - создается в файле pangenome/pangenome.bs Выполняет итерации, пока отличие нового пре-пангенома от предыдущего будет незначительным, менее 0.1% Регулируется параметром MIN_REL_DISTANCE = Decimal('0.001')

9

npge PostProcessing

Создается множество файлов с аналитической информацией о пангеноме

10

qnpge

Визуализация пангенома

Как подготовить единственный входной файл genomes.tsv

all:embl:CP003309       Hino    chr1    c       Rickettsia rickettsii str. Hino
all:refseqn:CP003318.1  Hauke   chr1    c       Rickettsia rickettsii str. Hauke
all:embl:CP003311       Hlp2    chr1    c       Rickettsia rickettsii str. Hlp2
all:file:Rrickettsii_genomes/CP000766   Iowa    chr1    c       Rickettsia rickettsii str. Iowa 

Параметры, которые можно менять в файле npge.config

Не выставляйте значение параметра WORKERS больше, чем 2 (значение по умолчанию). Процессы, занимающие более двух ядер процессора буду убивать без предупреждений!

— ИР

Все команды npge выдают на stdout и/или stderr протоколы выполнения. Следует сохранять протоколы, например: npge MakePangenome &> log_make

Аналитические файлы с полезной информацией

Визуализатор qnpge запускается в рабочей директории (ricketssii_npg в примере) БЕЗ ПАРАМЕТРОВ.


1c Ядро нуклеотидного пангенома состоит из совокупности s-блоков. Это наиболее стабильная часть панегенома. По объединенному выравниванию s-блоков NPG-explorer вычисляет филогенетическое дерево геномов.

Информация про s-блоки и блоки других типов содержится в файле pangenome/pangenome.info . Приведены две оценки размер ядра: (1) The percentage of input length: 73.67% Это процент числа нуклеотидов в ядре от числа нуклеотидов во входных последовательностях (2) The percentage of total blocks' length: 61.65% Это процент числа колонок в объединенном выравнивании s-блоков от суммарного числа колонок во всех блоках НПГ

Для последнего вопроса воспользуйтесь визуализатором qnpge нуклеотидного пангенома. Посмотрите в презентации что такое g-блок. В g-блоке, по определению, все s-блоки идут в одном и том же порядке во всех геномах. Чтобы сравнить последовательности g-блоков во всех хромосомах, в верхнем меню выберите Global blocks.


Формат файла pangenom/pangenom.bi

block    fragments      
 |       |       cols   ident-nogap     
 |       |       |      |       ident-gap       
 |       |       |      |       |       noident-nogap   
 |       |       |      |       |       |       noident-gap     
 |       |       |      |       |       |       |       pure-gap        
 |       |       |      |       |       |       |       |       ident   GC      JJA NT11058 Taiwan19F-14
r6x302   6      302     290     0       12      0       0       0.9602  0.3084  2   2       2
s3x703   3      703     693     0       10      0       0       0.9857  0.3086  1   1       1
h2x2385  2      2385    2155    6       224     0       0       0.9048  0.3089  1   1       0
r2x110n1 2      110     105     0       5       0       0       0.9545  0.309   0   2       0
s3x1238  3      1238    1178    25      33      2       0       0.9616  0.3091  1   1       1
u1x126n2 1      126     126     0       0       0       0       1       0.3095  0   1       0
m1x84n1  1      84      84      0       0       0       0       1       0.3095  0   0       1


Известный bug npge Prepare.

Случается, если в записи ген начинается в конце записи и заканчивается РОВНО ОДНИМ нуклеотидом - первым - в начале записи. Такое не исключено для кольцевых хромосом. Пример (был, но этот придумал):

FT   gene            join(4670170..46700769,1)

Или наоборот начинается последним нуклеотидом и продолжается начиная с первого нуклеотида последовательности. Пример: 

FT   gene            join(5466652,1..263)
 
Сообщение об ошибке выглядит примерно так:

std::logic_error: 'algo/AddGenes.cpp:240: virtual void npge::AddGenes::run_impl() const: Assertation `(boundaries.size() % 2) == (0)' failed.
Error message `1 == 0'.'


Лечится так. 
Скачать запись
Найти такую ситуацию grep ',1)'  в первом случае или grep ',1..' во втором.
Исправить вручную на 

join(4670170..46700769,1..1)  в первом случае и на

join(5466652..5466652,1..263) во втором

Указать считывание этого генома из локального файла

Не поверите, но обе ситуации у меня встречались и портили настроение. На сотни пангеномов по одному разу. 

Исправлю, все руки не доходили :(

2020/3/help10 (последним исправлял пользователь aba 2021-11-12 12:44:06)