Работа с пангеномом

В этом задании необходимо было построить нуклеотидный пангеном и с его помощью описать крупные эволюционные события в нескольких (в моём случае, в четырех) штаммах одного вида бактерий. В качестве исследуемого вида была выбрана бактерия Streptococcus agalactiae, в частности, штаммы SA111, CUGBS591, GBS6 и B105.

В начале была создана таблица-входной файл для программы NPG-explorer, её можно посмотреть здесь. После этого были последовательно выполнены следующие команды команды:

  • npge -g npge.conf - команда, создающая файл npge.conf с параметрами, которые можно менять (в частности, в этом файле значение параметра WORKERS было изменено с -1 (по умолчанию) на 1.
  • npge Prepare &> log_prepare - команда, загружающая геномные ДНК (файл log_prepare)
  • npge MakePangenome &> log_make - команда, непосредственно создающая нуклеотидный пангеном (файл log_make)
  • npge PostProcessing &> log_post - команда, создающая большое количество файлов с разнообразной информацией о геноме (блоки, мутации, т.д.). Файлов много, прилагать ссылки, вероятно, не буду
  • Основную статистическую информацию о пангеноме можно получить из файла pangenome.info. В частности, именно в этом файле можно узнать информацию о стабильном ядре (s-блоках) полученного пангенома. Ниже приведены некоторые сведения о s-блоках:

  • Число s-блоков - 223
  • Относительный размер нуклеотидного ядра - 76.22%
  • Процент консервативных колонок в объединённом выравнивании s-блоков от суммарного числа колонок во всех блоках НПГ - 98,54%

  • Для получения информации о h-блоках, то есть о блоках, содержащих фрагмент, находящийся только в части изучаемых геномов, файл pangenome.bi был преобразован в pangenome.tsv, чтобы можно было анализировать файл с помощью программы Excel. В Excel мы выбрали только строчки с h-блоками (по условию "начинается с h") и расположили их в порядку убывания длины блока. После этого мы посмотрели, в каком штамме отсутствует тот или иной блок и выбрали самую большу делецию в каждом штамме.

    Надо сказать, что информация о делетированных участках может позволить нам строить разного рода предположения об особенностях жизни тех или иных бактерий. Так, например, у штамма CUGBS591 отсуствует большое количество ферментов фосфотрансферазной системы (PTS), так как PTS ответственна за внесение многих сахаров внутрь бактерии, можно предположить, что с "всасыванием" сахаров у данного штамма проблемы. В основном, однако, в делетированных участках встречаются гипотетические белки, функция которых в клетке до конца не выяснена.

    Геном Имя блока, подтверждающего делецию Длина блока Имена делетированных генов
    SA111 h3x4477 4477 PadR family transcriptional regulator; N-acetyltransferase (в геноме штамма GBS6 указано, что этот ген кодирует GNAT family acetyltransferase, что может быть ошибкой аннотирования); ABC transporter permease ( у GBS6 указан как DX05_10320 membrane protein, это точно ошибка аннотирования, т.к. ген почти полностью совпадает с таковыми у других штаммов); ABC transporter ATP-binding protein (903 bp); XRE family transcriptional regulator (1077 bp).
    CUGBS591 h3x10603 10603 Heparinase II/III-like protein (1905 bp); PTS system, N-acetylgalactosamine-specific IIC (867 bp); PTS N-acetylgalactosamine transporter subunit (495 bp); glucuronyl hydrolase (1197 bp); PTS mannose transporter subunit IIA (435 bp); gluconate 5-dehydrogenase (813 bp); hypothetical protein (639 bp); hypothetical protein (1497 bp)
    GBS6 h3x9203 9203 carbamoylsarcosine amidase (2916 bp); phage tail tape measure protein (3120 bp); hypothetical protein (420 bp); phage tail protein (570 bp); phage major capsid protein (1209 bp)
    B105 h3x2380 2380 hypothetical protein (387 bp); hypothetical protein (407 bp); другие гипотетические белки (1207 bp, 408 bp и т.д.)


    С помощью возможностей NPG-explorer и Excel можно также посмотреть перестановки синтений. Ниже показана таблица с перестановками в изучаемых штаммах, одинаковые блоки выделены одним цветом.



    Как можно видеть, у штамма CUGBS591 произошло перемещение синтеничного блока (g4x2099802), так как этот блок находится на одном месте у всех остальных штаммов (либо перемещение блока произошло у общего предка трёх других штаммов, необходимо более детальное изучение).Ещё виден консервативный блок, который никуда не переместился (g4x17791).

    Ошибки в аннотации найти довольно-таки нетрудно - возьмём для примера уже рассматривавшийся нами ранее блок h3x10603. Первым в геномах штаммов B105 и SA111 указан ген, кодирующий heparinase II/III-like protein, однако у штамма GBS6 абсолютно такой же ген кодирует, судя по аннотации, oligohyaluronate lyase. Вероятнее, стоит доверять тому варианту, который встречается у большего количества штаммов, но для более обоснованного суждения надо взять выборку побольше.
    Также встречаются случаи, когда в одном из геномов функция белка, кодируемого геном, указана, а в других ген относится к категории hypothetical. Примером может служить тот же блок, в SA111 ген называется putative 4-deoxy-L-threo-5-hexosulose-uronate, в двух других штаммах - hypothetical protein. Как с этим разбираться, не очень понятно, необходим более точный анализ. Вероятно, аннотация изначально была hypothetical protein во всех трёх штаммах, однако в одном из них функцию белка удалось определить, а в остальных описание не поменяли.

    Заключение

    В рамках этого практикума мы изучили геном 4 штаммов бактерии вида Streptococcus agalactiae, изучили консервативные участки и делеции в этом геноме. Часть заключения я хочу посвятить проблеме несоответствующих друг другу аннотациий в геномах - количество ошибок и несоответствий настолько велико, что, по моему мнению, может запутать и даже привести учёного (биоинформатика) к неверным выводам. Как эту проблему решить, я, честно говоря, не представляю, однако есть идея создать что-то наподобие единой базы данных для таких вещей, чтобы координировать изменение аннотаций в разных геномах с получением новых данных. Выше я привёл пример, когда, как мне кажется, несоотвествие аннотаций было вызвано именно медленным их обновлением.