Выравнивание геномов

Задание 1.

В данном задании требовалось построить карту сходства хромосом двух родственных бактерий. Для работы были взяты геномы Brucella abortus 104M chromosome 1, complete sequence и Brucella suis bv. 2 strain Bs143CITA chromosome I, complete sequence.

Для сравнения двух геномов было необходимо было запустить blastn для выравнивания 2 последовательностей (blast2seq) с сайта NCBI. Нужным результатом работы ресурса являлась карта локального сходства, представленная на Рис. 1.

Рис. 1. Карта локального сходства для геномов двух бактерий: Brucella abortus 104M chromosome 1 и Brucella suis bv. 2 strain Bs143CITA chromosome I. Зеленой рамкой обозначено место, где произошла инверсия, красной - место, где произошла вставка (делеция).

Задание 2.

В этом задании надо было описать сходство и различие геномов близкородственных бактерий. При выполнении задания использовался метод построения нуклеотидного пангенома (NPG) с помощью пакета NPG-explorer. Нуклеотидный пангеном - специальный формат для множественного выравнивания геномов, ориентированный на геномы близкородственных бактерий или архей. Для работы были выбраны 3 штамма бактерии Helicobacter pylori: 26695, J99, 51.

Для работы пакета NPG-explorer было необходимо создать файл genomes.tsv, в которых содержится информация об источниках последовательностей геномных ДНК и аннотаций генов.
Затем при помощи команды npge -g npge.conf был создан файл npge.conf, содержащий параметры программы. Параметр MIN_IDENTITY был изменен на рекомендованное программой значение 0.877.

Информация о блоках в формате Excel

Рис. 2. Участок выравнивания блоков

Немного о блоках.

s-блоки - стабильные (коровые) блоки, по одному фрагменту из каждого генома
h-блоки - "полустабильные" блоки - по одному фрагменту из части геномов
u-блоки - и не блоки вовсе, а уникальные последовательности из одного генома, у них нет гомологов среди всех геномов, кроме самой себя
r-блоки - блоки с повторами, по крайней мере, в одном геноме
m-блоки - минорные блоки - короткие ( Список глобальных блоков - синтений - см. в global-blocks/blocks.gbi g-блоки (глобальные блоки) состоят из последовательно идущих во всех геномах s-блоков, перемежающихся блоками других типов (r-, h-, u- и m-)

Описание g-блоков (синтеничных участков).

Для работы был использован файл global-blocks/blocks.gbi. Всего есть 42 g-блока.

Описание s-блоков (стабильных).

Информация о блоках была взята из файла pangenome/pangenome.info. Число блоков = 517, суммарная длина блоков 1331210 (69.15%), процент от длины генома в среднем для каждого отдельного блока (длина s-блоков / кол-во s-блоков) = 0.19%, сходство геномов (процент консервативных позиций в объединенном выравнивании s-блоков) = 0.92436

Описание повторов на примере r-блоков.

Были использованы данные из файла pangenome/pangenome.bi.

Рис. 3. Таблица r-блоков

Для примера был взят блок r9x441. Видно, что в нем 9 фрагментов и 441 позиция в выравнивании блока. На Рис. 4 представлен участок выравнивания последовательностей, составляющих этот блок.

Рис. 4. Участок выравнивания последовательностей, составляющих блок r9x441

Описание h-блоков.

H-блоки - это "полустабильные" блоки, включающие по одному фрагменту из части геномов. То есть у какого-то из организмов данная последовательность отсутствует. На Рис. 5 представлены 4 самых больших h-блока, соответствующие крупным делециям.

Рис. 5. Самые большие h-блоки

Описание u-блоков.

Рис. 6. Примеры уникальных последовательностей

Для аннотирования был выбран самый крупный u-блок: u1x10805. На Рис. 7 представлена выдача blastn для последовательности этого блока. Видно, что этот блок есть у штамма 51 изучаемой бактерии. Все хорошие находки для данной последовательности принадлежали разным штаммам бактерии Helicobacter pylori, поэтому скорее всего последовательность не является результатом горизонтального переноса из бактерий другого вида.