Выравнивание геномов

Выбор штаммов из вида Vibrio Cholerae

В ходе задания были рассмотрены три штамма холерного вибриона. Соответсвующие записи в GenBank описывают последовательность одной хромосомы. Коды доступа последовательностей представлены по ссылкам: Los Alamos 1 (AC = CP010812.1), Tokyo (AC = AP018677.1) Los Alamos 2 (AC = CP010811.1).

Построение нуклеотидного пангенома с помощью NPG-explorer

Выравнивание геномов производилось NPG-explorer под DOS, файл установщика был скачан и выполнен. Для подготовки был создан файл genomes.tsv, в котором были указаны источники последовательностей, их [последовательностей] названия, кольцевой тип хромосомы и название штамма. Скачивание записей производилось командой 'npge Prepare' с log-файлом preparelog.txt. Оценка схожести геномов осуществлялась командой 'npge Examine', которая предсказала процент идентичности в блоках ядра 97.7 и порекоммендовала присвоить значение переменной MIN_IDENTITY = 0.877.

Estimation of average identity in core blocks: 0.977
Recommended value of MIN_IDENTITY: 0.877
Согласно инструкциям по выполнению задания Examine занижает значение примерно на 0.1, поэтому описанная выше переменная не была изменена. Весь набор параметров был получен командой 'npge -g npge.conf' и может быть просмотрен по ссылке.

Пангеном был построен с помощью команды 'npge MakePangenome' с log-файлом makepangenome.log. Этот пангеном было обработан командой 'PostProcerssing' с log-файлом PostProcessing.log.

Описание стабильного ядра нуклеотидного пангенома

Основная информация о нем вязта из файла pangenome.info. В нем указано, что ядро состоит из 353 стабильных блоков общим количеством в 10267190 нуклеотидов, что составило 85.11% входной последовательности. При этом действительный процент идентичности почти совпал с предсказанным (0.977 предсказно, 0.976458 оказалаось на самом деле).

Поиск крупнейших делеций в каждлом геноме

В качестве делеций рассматривались h-блоки, присутствующие в двух геномах и отсутствующие в третьем. Такие блоки были найдены в файле pangenomes.bi. Названия делятированных генов были найдены с помощью визуализатора qnpge. Итоговая таблица с дклкциями представлена ниже:

Название генома Имя блока Длина делеции Наименования генов
LA1 h2x9339 9339 mannose-6-phosphate isomerase, helix-turn-helix domain protein, phosphoenolpyruvate-dependent sugar
NIoID h2x12951 12951 sialidase, N-acetylglucosamine-6-phosphate deacetylase, N-acetylmannosamine kinase
LA2 h2x5302 5302 RNA helicase family protein, N-6 DNA Methylase family protein, type I restriction modification DNA specificity

Описание перестановки g-блоков

К примеру глобальный блок с названием g3x124 у NIoID находится непосредственно после i1x32937 в визуализированном выравнивании, а у LA1 и LA2 - после i2x12487. Блок g3x245 у всех трех вырвниваний имеет разного соседа слева i1x11100 у LA1, у i1x4250 LA2 и у i1x10183 NIoID. Результаты получены на основании изображения из визуализатора. Сопроводительные файы находятся по адресу ~/public_html/term3/block2/credits.

Перестановки g-блоков
Рисунок 1. Перестановки g-блоков

Поиск ошибки в аннотациях гена

В блоке s3x11129 третий по с начала ген в геномах LA1 и NIoID аннотирован как "multi-copper polyphenol oxidoreductase laccase", а в геноме LA2 как гипотетический белок. Это - неточность в описании, которую можно исправить, изменив название на таковое у первых двух геномов. Примечательно, что длины участков в аннотациях совпадают, как и сами участки, то есть авторам первых двух геномов удалось установить белок, а авторам LA2 - нет.

Комментарии

Пакет npge относительно удобен в работе, так как при установке сразу же добавляет свои программы в PATH и может быть вызван из любой директории. В качестве базы данных изначально была выбрана RefSeq, но со временем стало ясно, что в этих записях отсутствуют аннотиации генов. Осознание (прежде всего) и решение этого потратило больше времени, чем составление пангенома. Само выравнивание производилось на персональноми компьютере и оказалось сопоставимо по времени работы с веб-интерфейсом BLAST. Выбранные три штамма оказались похожими между собой настолько, что параметры в конфиг файле возможно стоило сделать строже. Более того, s-блоки составили около 85 процентов всех нуклеотидов, то есть бОльшая часть выравнивания приходится на стабильное ядро. В целом выравнивание имеет немного блоков делеции, и они мелкие сравнительно, например тех же s-блоков. Порядок глобальных блоков схож у всех трех последовательностей, но чаще всего в кажлой позиции совпадают два из трех блоков, довольно редко все три. Имеется пара примеров рассинхронизации одного и того же глобального блока у всех геномов, один из них - g3x124.