Выравнивать гены довольно удобно. Но что, если речь идёт о целых геномах? Оказывается, что в ходе эволюции, геномы претерпевают не только
точечные мутации, но и целые геномные перестройки. Можно ли выровнять несколько геномов и проследить за ними? Этой проблеме посвящён сегодняшний практикум.
Выбор бактерии
В этом практикуме нужно было описать крупные эволюционные события в геномах 3-5 штаммов одного вида бактерий,
чей геном представлен одной полностью собранной хромосомой.
Для рассмотрения я выбрал 4 штамма чумной палочки (Yersinia pestis). Для загрузки и дальнейшего анализа геномов был
подготовлен единственный входной файл genomes.tsv. Он также лежит в директории
~/term3/block2/credits/npg/genomes.tsv
Построение нуклеотидного пангенома с помощью NPG-explorer
Для построения НПГ воспользовались следующими командами: npge -g npge.conf - создание файла npge.conf с
настраиваемыми параметрами. Параметр WORKERS изменили на 1, остальное оставили как есть (это значит использование только одного процессора). npge Prepare &> log_prepare - созданы и переименованы геномные последовательности (log_prepare) npge Examine &> log_examine - вычисление оценки сходства геномов (log_examine) и коррекция параметра MIN_IDENTITY по рекомендации npge Examine (0,899) npge MakePangenome &> log_make - построение НПГ (log_make) npge PostProcessing &> log_post - получение файлов с описанием пангенома (log_post)
Описание стабильного ядра нуклеотидного пангенома
Информацию о стабильном ядре можно найти в файле pangenome.info.
Нуклеотидный пангеном включает в себя 431 стабильный блок (s-blocks),
размер же нуклеотидного ядра (процент нуклеотидов в ядре от числа нуклеотидов во всех геномах) составляет 91.97%.
Процент консервативных колонок в объединённом выравнивании s-блоков составляет 96.94%.
Описание самой крупной делеции в каждом геноме
Для того, чтобы проследить делеции, мы воспользовались информацией из файла pangenome.bi,
которая была переведена в формат .xlsx.
Полустабильные блоки (h-блоки) - блоки, в которых содержатся последовательности не из всех геномов. Их и будем искать.
В Excel включаем фильтр на наличие буквы h в названии блока и сортируем по столбцу col в порядке убывания, чтобы найти самые длинные.
Результат можно найти тут.
Таблица 1. Описание самой крупной делеции в каждом геноме
Штамм
Имя блока, подтверждающего делецию
Длина делеции
Имена выпавших генов
PBM19
h3x14824
14824
major Facilitator Superfamily protein
MFS transporter
zinc resistance-associated protein
zinc resistance sensor/chaperone ZraP
FDAARGOS_603
h3x9678
9678
DUF2645 family protein
putative outer membrane lipoprotein pcp
glycine zipper 2TM domain-containing protein
outer membrane lipoprotein slyB
hypothetical protein
DUF805 domain-containing protein
FDAARGOS_601
h2x9460
9460
Не найдено в qnpge
Antiqua
h2x9460
9460
Не найдено в qnpge
Как мы видим, у всех штаммов есть крупные делеции, однако поиск в визуализаторе qnpge показал утрату, пожалуй, не самых значимых генов у первых двух штаммов,
а у последних вообще никакой утраты функциональных генов.
Описание перестановки синтений (g-блоков) в одном или нескольких геномах
Необходимую информацию для поиска синтении можно найти в файле blocks.blocks.
Его содержимое было скопировано и переведено в .xlsx формат. От туда были удалены все столбцы, не содержащие g-блоков.
Затем с помощью найденнго на просторах интернета макроса Excel, были покрашены одинаковым цветом совпадающие ячейки. Итоговый файл тут.
Рис. 1. Блоки нуклеотидного пангенома до очистки
Был найден один хороший пример перестановки g-блока (g4x23662):
Рис. 2. Перестановка блока g4x23662
Заключение
Построение нуклеотидного пангенома - весьма удобный способ проследить крупные эволюционные события в разных организмах, однако он имеет границы применимости.
Во-первых, программа работает относительно долго. Во-вторых, сколь-нибудь интерпретируемый результат можно получить только при сравнении очень близких групп (в нашем случае - штаммов бактерий).
Увиденные глазами результаты сравнения нескольких штаммов чумной палочки показали, насколько динамичной системой является геном, насколько часто там происходят перестройки.