Выравнивание геномов

Задания 1 и 2. Выбор штаммов одного вида бактерии с известными полностью собранными геномами и построение нуклеотидного пангенома с помощью NPG-explorer.

Для выполнения данного задания были выбраны 5 штаммов вида Campylobacter coli: R18.1828 (CP076509.1), R19.1157 CP076513.1), YH501 (CP015528.1), PSU-32 (CP061537.1), CC19DZ036 (CP068565.1). Далее был построен нуклеотидный пангеном с помощью программы NPG-explorer. Для этого был создан входной файл для пронграммы, который доступен для просмотра по ссылке. Далее были запущены команды: Prepare, Examine, MakePangenome, PostProcessing. Ссылки на выдачи и протоколы выполнения команд находятся в таблице 1.

Таблицa 1. Файлы выдачи NPG-explorer.
Файл Описание
1 nj-global-tree.tre

Дерево геномов, построенное на основе объединённого выравнивания s-блоков

2 features.bs

Описание генов

3 mutations.tsv

Описание всех мутаций в блоках

4 consensuses.fasta

Консенсусы всех блоков

5

pangenome.info

pangenome.bi

pangenome.bs

Характиристика блоков

6

log_makepangenome

log_postprocessing

log_prepare

Протоколы выполнения команд

Задание 3. Описание стабильного ядра нуклеотидного пангенома

Таблицa 1. Файлы выдачи NPG-explorer.
1 Число s-блоков

178 (7434958 bp)

2 Размер нуклеотидного ядра (процент нуклеотидов в ядре от числа нуклеотидов во всех геномах)

86,038%

3 Процент консервативных колонок в объединённом выравнивании s-блоков

98,6595%

4 Длина построенных фрагментов

min: 101

max: 74966

Задание 4. Крупные делеции в геномах.

Таблицa 2. Крупные делеции.
Геном Блок Длина делеции Имена одного или нескольких делетированных генов
R19.1157 h4x8301 8301 Aldehyde dehydrogenase, amidohydrolase family protein, L-fucose:H+ symporter permease
CC19DZ036 h4x6854 6854 Basic amino acid ABC transporter, ABC transporter ATP-binding protein, alkaline phosphatase family protein
R18.1828 h4x4068 4068 Flagellin modification protein A, GDP-N,N'-diacetylbacillosamine 2-epimerase
YH501 h4x3726 3726 Autotransporter outer membrane beta-barrel
YH501, PSU-32 h3x3701 3701 Pyridoxamine 5'-phosphate oxidase family protein, helix-turn-helix transcriptional regulator, IS1595-like element ISCaje6 family transposase

Для выполнения данного задания были выбраны только h3 и h4 блоки, чтобы можно было утверждать с большой долей вероятности, что произошла именно делеция, а не вставка.

Задание 5. Перестановка синтений в g-блоках

Кекс
Рис.1 Пример перестановки синтения в NPG-explorer

Изучив блок g4x1356938 на предмет наличия перестановок был обнаружен блок h4x140>, который относится к геному штамма R19.1157.

Задание 6. Примеры ошибок аннотации гена

  1. Первый пример был найден в блоке s5x74972, 4 фрагмента несут аннотацию гена zinc ribbon domain-containing protein, но при этом фрагмент штамма YH501 на данном участке несет аннотацию нераспознанного гена (рис.2).
  2. Кекс
    Рис.2 Hypothetical protein
  3. Второй пример был найден в блоке s5x65634. В данном блоке 3 фрагмента несут аннотацию гена DMT family transporter (рис.3). Фрагмент относящийся к штамму PSU-32 несет на рассматриваемом участке ген EamA family transporter (рис.4). Но я решил сделать запрос в UniProt: name:"dmt family transporter" AND organism:"Campylobacter coli [195]". Как видно из аннотации к данному белку, он имеет два названия (рис. 5). Также на данном участке фрагмент штамма YH501 несет неопределенный ген (рис.6).
Кекс
Рис.3 DMT family transporter
Кекс
Рис.4 EamA family transporter
Кекс
Рис.5 NCBI annotation
Кекс
Рис.6 Hypothetical protein