Учебный сайт Левина Ильи, 3-й семестр

Построение нуклеотидного пангенома

Задание 1: Выбор бактерий и построение пангенома

Мой взор пал на вот такую бактерию: Rhizobium etli. В ней я выбрал вот такие штаммы: NXC12, CFN-42, CIAT 652, Mim1. Здесь вы сможете найти входной файл для npge, который был создан вручную, со всей необходимой информацией о бактериях.

Далее я, собственно, построил пангеном. Для этого надо было создать отдельную для работы npge директорию, переместить туда входной файл и самому туда переместиться. После этих действий я воспользовался несколькими командами:

>npge Prepare

Этой командой я скачал геномы, указанные во входном файле. Далее я, зная, что не буду ничего менять в конфигурации npge, а буду использовать все параметры по умолчанию, сразу же перешёл к построению пангенома:

>npge MakePangenome

После построения пангенома я воспользовался следующей командой:

>npge PostProcessing

дабы получить большое количество файлов с аналитикой моего новоиспечённого пангенома.

Сразу стоит уточнить, что количество рабочих ядер я не указывал по причине, что собирал пангеном локально на своём компьютере, а логи не сохранял по той причине, потому что выполнял все команды через командную строку Windows, в которой мне не удалось разобраться в той степени, чтобы понимать синтаксис stdin/stdout. Но я внимательно следил за бегущими строками и могу вас заверить, что всё прошло идеально.

Задание 2: Описание стабильного ядра НПГ

Всю информацию об s-блоках я брал и аналитического файла pangenome.info, за исключением третьего параметра, для подсчёта которого мне понадобился маленький скрипт и файл pangenome.bi:

Таблица 1. Описание стабильного ядра НПГ
Параметр Значение
Количество s-блоков 3458
Размер стабильного ядра (отношение кол-ва нуклеотидов, составляющих стабильное ядро, к общему кол-ву нуклеотдиов) 64.6%
Процент консервативных колонок в объединённом выравнивании s-блоков 91.2%

Задание 3: Описание крупных делеций

Информацию о делециях я брал в уже упомянутом выше файле pangenome.bi. За делецию я считал такой блок, которого нет только у одного из геномов, а длиной делеции - длину выравнивания этого блока. Названия генов я искал с помощью qnpge.

Таблица 2. Описание крупных делеций в геноме каждого штамма бактерии
Штамм Длина делеции Удалённый блок Гены
NXC12 1403 h3x1403 potassium-efflux system protein + hypothetical proteins
CFN-42 2799 h3x2799 GDP-mannose 4,6-dehydratase 1, GDP-L-fucose synthase protein, SAM-dependent methyltransferase protein
CIAT 652 29995 h3x29995 GDP-mannose 4,6-dehydratase 2, lipopolysaccharide biosynthesis protein, glycosyltransferase family 1 protein and so on...
Mim1 1677 h3x1677 putative phage-related lysozyme protein + hypothetical proteins

Задание 4: Крупная перестановка синтении

Собственно, искал я такую перестановку проверенным методом пристального взгляда в qnpge.

Перестановка_синтений.png
Рис. 1. Крупная перестановка в штамме CIAT 652. Обратите внимание на блок g4x16777.

Задание 5: Поиск ошибки аннотации

Собственно, ошибки в аннотации я также искал методом пристального взгляда в программе qnpge.

Annot_mistakes.png
Рис. 2. Ошибка в аннотации генов.

Как мы можем заметить по рис. 2, у нас в двух геномах ген аннотирован, как некий гипотетический консервативный белок, в то время как в двух других уточнили до какой-либо N-ацетилтрансферазы. Это довольно странно при проценте идентичности последовательностей 90 и более. Эту аннотацию можно исправить, заменив в первых двух геномах имя гена "hypithetical conserved protein" на "N-acetyltransferase family protein".

Обсуждение полученных результатов

Больше всего моё внимание привлек тот факт, что, пока я искал наиболее крупную делецию для описания, я в принципе чаще встречал делеции именно в геноме штамма CIAT 652. И та делеция, что я описал, далеко не единственная, и мне кажется, что и не самая крупная в геноме этого штамма, так как я мог что-то упустить при поиске. Также при просмотре упорядоченных выровненынх блоков в программе qnpge, было очень заметно, что геном именно этого штамма больше всех отличается от остальных разного рода перестановками, делециями и вставками, он прямо-таки выбивался из общей картины. Исходя из всего выше сказанного, тот факт, что штамм CIAT 652 вида Rhizobium etli в принципе к этому виду относится, находится под большим сомнением, возможно, этот штамм нужно отнести к другому виду или вообще выделить в отдельный.