Работа с пангеномами в NPG explorer

Подготовка к работе

Выбранный штамм Число хромосом AC сборки в EMBL-EBI AC последовательности в EMBL-EBI
Mycobacterium tuberculosis H37Rv 1 GCF_000195965.2 AL123456
Mycobacterium tuberculosis strain CG24 1 GCF_017901105.1 CP072761
Mycobacterium tuberculosis strain 3-0096P6C4 1 GCF_014899995.1 CP041827.1

Запуск NPGE

Выдача программы:

Файл Значение
pangenome.info Общая информация о всех блоках
npge.conf Файл с параметрами MIN_IDENTITY, MIN_LENGTH и др.
nj-global-tree.tre Древо геномов
genomes.tsv Файл с информацией о геномах
features.bs Информация о генах
pangenome.bs,pangenome.bi Подробное описание блоков
consensuses.fasta Консенсусы белков

Стабильное ядро нуклеотидного пангенома

Число s-блоков 371 (12780172 нуклеотидов)
Размер нуклеотидного ядра (процент нуклеотидов в ядре от числа нуклеотидов во всех геномах) 95.93%
Процент консервативных колонок в объединенном выравнивании 99,9043%
Длина построенных фрагментов min: 100
max: 111720
Процент числа колонок в объединенном выраванивании s-блоков от суммарного числа колонок во всех блоках 96.79%
transposition
Филогенетическое древо. Файл nj-global-tree.tre открыт с помощью программы FigTree (MYTUB1 - M. tuberculosis H37Rv; MYTUB2 - M. tuberculosis strain CG24; MYTUB3 - M. tuberculosis strain 3-0096P6C4)

Крупные делеции

Файл pangenome.bi был открыт с помощью Excel, значения в столбцах MYTUB1, MYTUB2, MYTUB3, соответствующие трем штаммам бактерий, были отсортированы по возрастанию в соотвествии с числом различных блоков в них.
В результате были найдены 2 самых крупных h-блока, отсутствующие у штамма Mycobacterium tuberculosis strain 3-0096P6C4:
  • h2x2399 - делеция длиной 2399 bp
  • h2x869 - делеция длиной 869 bp

  • Информация о делятированных белках
    Блок Белки
    h2x869
  • ctpV - АТФаза V, транспортирующая ионы меди (I) за пределы клетки (организм: M. tuberculosis H37Rv, расположение: 1078743..1081055, ID: CTPV_MYCTU, AC: P9WPS3)
  • ctpV - см. выше (организм: M. tuberculosis strain CG24, расположение: 1078747..1081059, ID: QTR40314.1)

  • h2x869h2x2399
  • Probable glycosyltransferase (организм: M. tuberculosis H37Rv, расположение: 1718726..1719970, ID: CCP44288.1)
  • Possible rhamnosyl transferase WbbL2 (организм: M. tuberculosis H37Rv, расположение: 1720017..1720802, ID: CCP44289.1)
  • Glycosyltransferase (организм: M. tuberculosis strain CG24, расположение: 1720297..1721541, ID: QTR39823.1)
  • Glycosyltransferase family 2 protein (организм: M. tuberculosis strain CG24, расположение: 1721588..1722373, ID: QTR39824.1)

  • В третьем штамме данные белки, возможно, переместились в другое место генома или были заменены на их альтернативные формы, т.к. большая часть их них выполняет довольно важные функции. Также возможно, что произошел горизонтальный перенос генов, за счет которого штаммы H37Rv и CG24 получили эти гены.

    Перестановка синтений в g-блоках

    Обнаружена перестановка блока r48x1355.
    transposition

    Ошибки в аннотации

    Пример 1.В блоке s3x80320 последовательность одного из трех штаммов несет аннотацию гена CDS FPJ81_00070 hypothecical protein; оставшиеся последовательности хорошо с ним выравниваются, но аннотации нет.
    transposition
    Пример 1

    Пример 2.В блоке s3x80320 у одной последовательности не уточнена в аннотации функция белка, у третьей описано только наличие FHA-домена (аннотации: CDS Rv0019c Conserved protein with FHA domain, FhaB; CDS J8670_00115 growth/cell division-associated protein FhaB; CDS FPJ81_00120 FHA domain-containing protein) несмотря на то, что они хорошо выравниваются, т.е. аннотация неполная.
    transposition
    Пример 2

    transposition
    Пример 3. Случай, аналогичный примеру 1