В этом задании необходимо было построить нуклеотидный пангеном и с его помощью описать крупные эволюционные события в нескольких (в моём случае, в четырех) штаммах
одного вида бактерий. В качестве исследуемого вида была выбрана бактерия Streptococcus agalactiae, в частности, штаммы SA111, CUGBS591, GBS6 и B105.
В начале была создана таблица-входной файл для программы NPG-explorer, её можно посмотреть здесь.
После этого были последовательно выполнены следующие команды команды:
Основную статистическую информацию о пангеноме можно получить из файла pangenome.info. В частности, именно в этом файле можно узнать информацию о стабильном ядре (s-блоках) полученного пангенома. Ниже приведены
некоторые сведения о s-блоках:
Для получения информации о h-блоках, то есть о блоках, содержащих фрагмент, находящийся только в части изучаемых геномов, файл
pangenome.bi был преобразован
в pangenome.tsv, чтобы можно было анализировать файл с помощью программы Excel. В
Excel мы выбрали только строчки с h-блоками (по условию "начинается с h") и расположили их в порядку убывания длины блока. После этого мы посмотрели, в каком штамме
отсутствует тот или иной блок и выбрали самую большу делецию в каждом штамме.
Надо сказать, что информация о делетированных участках может позволить нам
строить разного рода предположения об особенностях жизни тех или иных бактерий. Так, например, у штамма CUGBS591 отсуствует большое количество ферментов
фосфотрансферазной системы (PTS), так как PTS ответственна за внесение многих сахаров внутрь бактерии, можно предположить, что с "всасыванием" сахаров у данного штамма
проблемы. В основном, однако, в делетированных участках встречаются гипотетические белки, функция которых в клетке до конца не выяснена.
Геном | Имя блока, подтверждающего делецию | Длина блока | Имена делетированных генов |
SA111 | h3x4477 | 4477 | PadR family transcriptional regulator; N-acetyltransferase (в геноме штамма GBS6 указано, что этот ген кодирует GNAT family acetyltransferase, что может быть ошибкой аннотирования); ABC transporter permease ( у GBS6 указан как DX05_10320 membrane protein, это точно ошибка аннотирования, т.к. ген почти полностью совпадает с таковыми у других штаммов); ABC transporter ATP-binding protein (903 bp); XRE family transcriptional regulator (1077 bp). |
CUGBS591 | h3x10603 | 10603 | Heparinase II/III-like protein (1905 bp); PTS system, N-acetylgalactosamine-specific IIC (867 bp); PTS N-acetylgalactosamine transporter subunit (495 bp); glucuronyl hydrolase (1197 bp); PTS mannose transporter subunit IIA (435 bp); gluconate 5-dehydrogenase (813 bp); hypothetical protein (639 bp); hypothetical protein (1497 bp) |
GBS6 | h3x9203 | 9203 | carbamoylsarcosine amidase (2916 bp); phage tail tape measure protein (3120 bp); hypothetical protein (420 bp); phage tail protein (570 bp); phage major capsid protein (1209 bp) |
B105 | h3x2380 | 2380 | hypothetical protein (387 bp); hypothetical protein (407 bp); другие гипотетические белки (1207 bp, 408 bp и т.д.) |
С помощью возможностей NPG-explorer и Excel можно также посмотреть перестановки синтений. Ниже показана таблица с перестановками в изучаемых штаммах, одинаковые блоки выделены одним цветом.
Как можно видеть, у штамма CUGBS591 произошло перемещение синтеничного блока (g4x2099802), так как этот блок находится на одном месте у всех остальных штаммов (либо перемещение
блока произошло у общего предка трёх других штаммов, необходимо более детальное изучение).Ещё виден консервативный блок, который никуда не переместился (g4x17791).
Ошибки в аннотации найти довольно-таки нетрудно - возьмём для примера уже рассматривавшийся нами ранее блок h3x10603. Первым в геномах штаммов
B105 и SA111 указан ген, кодирующий
heparinase II/III-like protein, однако у штамма GBS6 абсолютно такой же ген кодирует, судя по аннотации, oligohyaluronate lyase. Вероятнее, стоит доверять тому варианту,
который встречается у большего количества штаммов, но для более обоснованного суждения надо взять выборку побольше.
Также встречаются случаи, когда в одном из геномов функция белка, кодируемого геном, указана, а в других ген относится к категории hypothetical. Примером может
служить тот же блок, в SA111 ген называется putative 4-deoxy-L-threo-5-hexosulose-uronate, в двух других штаммах - hypothetical protein. Как с этим
разбираться, не очень понятно, необходим более точный анализ. Вероятно, аннотация изначально была hypothetical protein во всех трёх штаммах, однако в одном
из них функцию белка удалось определить, а в остальных описание не поменяли.
В рамках этого практикума мы изучили геном 4 штаммов бактерии вида Streptococcus agalactiae, изучили консервативные участки и делеции в этом геноме. Часть
заключения я хочу посвятить проблеме несоответствующих друг другу аннотациий в геномах - количество ошибок и несоответствий настолько велико, что, по моему
мнению, может запутать и даже привести учёного (биоинформатика) к неверным выводам. Как эту проблему решить, я, честно говоря, не представляю, однако есть идея создать
что-то наподобие единой базы данных для таких вещей, чтобы координировать изменение аннотаций в разных геномах с получением новых данных. Выше я привёл пример,
когда, как мне кажется, несоотвествие аннотаций было вызвано именно медленным их обновлением.