Выравнивание геномов


Выравнивать гены довольно удобно. Но что, если речь идёт о целых геномах? Оказывается, что в ходе эволюции, геномы претерпевают не только точечные мутации, но и целые геномные перестройки. Можно ли выровнять несколько геномов и проследить за ними? Этой проблеме посвящён сегодняшний практикум.

Выбор бактерии

В этом практикуме нужно было описать крупные эволюционные события в геномах 3-5 штаммов одного вида бактерий, чей геном представлен одной полностью собранной хромосомой. Для рассмотрения я выбрал 4 штамма чумной палочки (Yersinia pestis). Для загрузки и дальнейшего анализа геномов был подготовлен единственный входной файл genomes.tsv. Он также лежит в директории
~/term3/block2/credits/npg/genomes.tsv

Построение нуклеотидного пангенома с помощью NPG-explorer

Для построения НПГ воспользовались следующими командами:
npge -g npge.conf - создание файла npge.conf с настраиваемыми параметрами. Параметр WORKERS изменили на 1, остальное оставили как есть (это значит использование только одного процессора).
npge Prepare &> log_prepare - созданы и переименованы геномные последовательности (log_prepare)
npge Examine &> log_examine - вычисление оценки сходства геномов (log_examine) и коррекция параметра MIN_IDENTITY по рекомендации npge Examine (0,899)
npge MakePangenome &> log_make - построение НПГ (log_make)
npge PostProcessing &> log_post - получение файлов с описанием пангенома (log_post)

Описание стабильного ядра нуклеотидного пангенома

Информацию о стабильном ядре можно найти в файле pangenome.info. Нуклеотидный пангеном включает в себя 431 стабильный блок (s-blocks), размер же нуклеотидного ядра (процент нуклеотидов в ядре от числа нуклеотидов во всех геномах) составляет 91.97%. Процент консервативных колонок в объединённом выравнивании s-блоков составляет 96.94%.

Описание самой крупной делеции в каждом геноме

Для того, чтобы проследить делеции, мы воспользовались информацией из файла pangenome.bi, которая была переведена в формат .xlsx. Полустабильные блоки (h-блоки) - блоки, в которых содержатся последовательности не из всех геномов. Их и будем искать. В Excel включаем фильтр на наличие буквы h в названии блока и сортируем по столбцу col в порядке убывания, чтобы найти самые длинные. Результат можно найти тут.

Таблица 1. Описание самой крупной делеции в каждом геноме

Штамм Имя блока, подтверждающего делецию Длина делеции Имена выпавших генов
PBM19 h3x14824 14824 major Facilitator Superfamily protein
MFS transporter
zinc resistance-associated protein
zinc resistance sensor/chaperone ZraP
FDAARGOS_603 h3x9678 9678 DUF2645 family protein
putative outer membrane lipoprotein pcp
glycine zipper 2TM domain-containing protein
outer membrane lipoprotein slyB
hypothetical protein
DUF805 domain-containing protein
FDAARGOS_601 h2x9460 9460 Не найдено в qnpge
Antiqua h2x9460 9460 Не найдено в qnpge
Как мы видим, у всех штаммов есть крупные делеции, однако поиск в визуализаторе qnpge показал утрату, пожалуй, не самых значимых генов у первых двух штаммов, а у последних вообще никакой утраты функциональных генов.

Описание перестановки синтений (g-блоков) в одном или нескольких геномах

Необходимую информацию для поиска синтении можно найти в файле blocks.blocks. Его содержимое было скопировано и переведено в .xlsx формат. От туда были удалены все столбцы, не содержащие g-блоков. Затем с помощью найденнго на просторах интернета макроса Excel, были покрашены одинаковым цветом совпадающие ячейки. Итоговый файл тут.
alignment

Рис. 1. Блоки нуклеотидного пангенома до очистки

Был найден один хороший пример перестановки g-блока (g4x23662):
Рис. 2. Перестановка блока g4x23662

Заключение

Построение нуклеотидного пангенома - весьма удобный способ проследить крупные эволюционные события в разных организмах, однако он имеет границы применимости. Во-первых, программа работает относительно долго. Во-вторых, сколь-нибудь интерпретируемый результат можно получить только при сравнении очень близких групп (в нашем случае - штаммов бактерий). Увиденные глазами результаты сравнения нескольких штаммов чумной палочки показали, насколько динамичной системой является геном, насколько часто там происходят перестройки.