Создание и анализ нуклеотидного ппангенома

Создание пангенома

Пангеном, основанный на геномах пяти штаммов (B. subtilis subsp. subtilis str. 168, B. subtilis subsp. inaquosorum str. KCTC 13429, B. subtilis str. NCIB 3610, B. subtilis subsp. spizizenii str. SW83, B. subtilis subsp. globigii str. ATCC 49760), был получен при использовании программы NPG-explorer по подсказкам.

Итогом работы программы стала обширная группа файлов и директорий, содержащая информацию о полученном пангеноме. Протоколы выполнения программ по последовательным запросам:

Итак, что же удалось узнать?

Стабильное ядро пангенома

Судя по записям в выданном документе pangenome.info, стабильное ядро пангенома состоит из 3568 s-блоков и включает 26.2% нуклеотидов всего пангенома со средней идентичностью колонок 85,83%. Из всего этого можно сразу сделать вывод, что выбор геномов был довольно неудачным и их обладатели имеют очень много отличий. Впрочем, беря аж пять геномов на вход стоило ожидать, что число s-блоков будет крайне велико, а их доля во всех геномах низка, ведь отсутствие оного даже в одном геноме сразу переведет блок в разряд h-блоков, а такая вероятность растет экпоненциально при росте числа геномов на входе.

Этот же вывод о плохом подборе входных геномов и сильном влиянии их количества можно сделать, смотря на статистику по u-блокам. Суммарно они занимают 16.67% от введенных последовательностей - довольно много для, по сути, одного вида.

Вообще, судя по визуализации пангенома, последний, пятый геном очень сильно отличается от всех остальных. Возможно, стоило бы убрать его из списка входного файла и провести всю процедуру еще раз.

Описание крупных делеций

С целью найти делеции для конкретных геномов я составил таблицу 1 при помощи сортировки файла pangenome.bi с информацией о кадждом блоке в Excel, в которую внес самые длинные делеции с отсутствием участка только у одного белка, что при таком сильном отличии 5 генома я считаю не совсем показательным.

Таблица 1. Крупные делеции геномов
Номер генома Имя блока Длина Гены
1 h4x733 733 protein EpsG
2 h4x2067 2067 peptidase G2
3 h3x691n1* 691 3-oxoacyl-ACP reductase
4 h4x5356 5356 VirB4-like ATPase ConE
5 h4x12891 12891 beta-galactosidase

*делеция произошла не только в третьем, но и в первом геноме. Индивидуальных делеций не найдено.

Описание перестановки синтений

В поисках перестановок g-блоков был проанализирован в Excel файл blocks.blocks. В нем почти сразу удалось найти перестановку блока g5x2474 (рис. 1).

Рисунок 1. Перестановка блока g5x2474

Этот блок был перенесен через три других g-блока без изменения направления считывания. Кстати, блок g5x4671, находящийся в пятом геноме рядом с описываемым, тоже был перенесен сюда через более чем десяток других g-блоков, и я могу предположить, что раз в эту зону натолько часто встраиваются участки ДНК из других частей хромосомы, то где-то в этой области находится зона, особо подверженная двуцепочечным разрывам, при попытке восстановления которой может происходить подобная транслокация.

Ошибки в аннотации генов

Еще при поиске крупных делеций я заметил, что описания генов на одном и том же участке в разных геномах могут сильно разниться. Так, в блоке h4x1728 до позиции 1181 идет крайне консервативный ген белка, аннотированного для 1, 2 и 4 геномов как alanine:cation symporter family protein, в то время как для 3 генома это sodium/glutamine symporter GlnT. И хоть как действие, так и субстрат сильно схожи, но я сомневаюсь, что один по сути белок выполняет настолько разные функции в клетках одного вида и настолько неспецифичен.

Кроме того, в блоке h4x12891 на позициях 2198-3008 расположен ген, который, судя по аннотации к генам 1, 3 и 4, является сигма-фактором регуляции. Аннотация второго гена заявляет, что это альфа/бета гидралаза. Я считаю, что тут допущена ошибка при аннотировании 2 генома, так как белки с такими разными функциями в организме одного вида не должны быть столь похожими, а этот ген выглядит консервативным. Этот же вывод подтверждается еще одним геном в этом блоке, закодированным в позициях 3044-4256. Точно так же аннотации генов 1, 3 и 4, считающая, что тут закодирована фосфосериновая фосфатаза, вступают в противоречие с аннотацией 2 (судя по которой, это домен S-box белка). Примечательно, что во всех этих случаях границы транскрипции определены одинаково, а изменение рамки считывания из-за гэпа в первом случае произошло максимум у двух аминокислот.