Построение нуклеотидного пангенома
Задание 1: Выбор бактерий и построение пангенома
Мой взор пал на вот такую бактерию: Rhizobium etli. В ней я выбрал вот такие штаммы: NXC12, CFN-42, CIAT 652, Mim1. Здесь вы сможете найти входной файл для
Далее я, собственно, построил пангеном. Для этого надо было создать отдельную для работы
>npge Prepare
Этой командой я скачал геномы, указанные во входном файле. Далее я, зная, что не буду ничего менять в конфигурации
>npge MakePangenome
После построения пангенома я воспользовался следующей командой:
>npge PostProcessing
дабы получить большое количество файлов с аналитикой моего новоиспечённого пангенома.
Сразу стоит уточнить, что количество рабочих ядер я не указывал по причине, что собирал пангеном локально на своём компьютере, а логи не сохранял по той причине, потому что выполнял все команды через командную строку Windows, в которой мне не удалось разобраться в той степени, чтобы понимать синтаксис stdin/stdout. Но я внимательно следил за бегущими строками и могу вас заверить, что всё прошло идеально.
Задание 2: Описание стабильного ядра НПГ
Всю информацию об s-блоках я брал и аналитического файла
Таблица 1. Описание стабильного ядра НПГ | |
---|---|
Параметр | Значение |
Количество s-блоков | 3458 |
Размер стабильного ядра (отношение кол-ва нуклеотидов, составляющих стабильное ядро, к общему кол-ву нуклеотдиов) | 64.6% |
Процент консервативных колонок в объединённом выравнивании s-блоков | 91.2% |
Задание 3: Описание крупных делеций
Информацию о делециях я брал в уже упомянутом выше файле
Таблица 2. Описание крупных делеций в геноме каждого штамма бактерии | |||
---|---|---|---|
Штамм | Длина делеции | Удалённый блок | Гены |
NXC12 | 1403 | h3x1403 | potassium-efflux system protein + hypothetical proteins |
CFN-42 | 2799 | h3x2799 | GDP-mannose 4,6-dehydratase 1, GDP-L-fucose synthase protein, SAM-dependent methyltransferase protein |
CIAT 652 | 29995 | h3x29995 | GDP-mannose 4,6-dehydratase 2, lipopolysaccharide biosynthesis protein, glycosyltransferase family 1 protein and so on... |
Mim1 | 1677 | h3x1677 | putative phage-related lysozyme protein + hypothetical proteins |
Задание 4: Крупная перестановка синтении
Собственно, искал я такую перестановку проверенным методом пристального взгляда в
Задание 5: Поиск ошибки аннотации
Собственно, ошибки в аннотации я также искал методом пристального взгляда в программе

Как мы можем заметить по рис. 2, у нас в двух геномах ген аннотирован, как некий гипотетический консервативный белок, в то время как в двух других уточнили до какой-либо N-ацетилтрансферазы. Это довольно странно при проценте идентичности последовательностей 90 и более. Эту аннотацию можно исправить, заменив в первых двух геномах имя гена "hypithetical conserved protein" на "N-acetyltransferase family protein".
Обсуждение полученных результатов
Больше всего моё внимание привлек тот факт, что, пока я искал наиболее крупную делецию для описания, я в принципе чаще встречал делеции именно в геноме штамма CIAT 652. И та делеция, что я описал, далеко не единственная, и мне кажется, что и не самая крупная в геноме этого штамма, так как я мог что-то упустить при поиске. Также при просмотре упорядоченных выровненынх блоков в программе