Задание 1.

Для построения НПГ были выбраны следующие штаммы бактерии Acidithiobacillus ferrivorans (причём, были взяты только хромосомные сборки): PRJEB5721, XJFY6S-08, SS3. Эта бактерия относится к Proteobacteria, семейству Acidithiobacillaceae.

Задание 2.

На вход программе NPG-explorer был подан файл genomes.tsv, которую запустили в командной строке (важно, чтобы работа с программой шла в той же директории, где лежит файл). Далее последовательно вводим команды:

  1. Для создания файла с параметрами, которые можно изменить (WORKERS = 1):
  2. npge -g npge.conf
  3. Для того, чтобы скачать и переименовать геномные ДНК:
  4. npge Prepare &> log_prepare
  5. Для создания файла identity_recommended.txt с оценкой сходства геномов, чтобы затем изменить параметр MIN_IDENTITY на 0.873:
  6. npge Examine
  7. После изменений параметров запустить построение нуклеотидного пангенома (параметр MIN_REL_DISTANCE = Decimal('0.001')):
  8. npge MakePangenome &> log_make
  9. Создание множества файлов с аналитической информацией о пангеноме:
  10. npge PostProcessing
  11. Визуализация пангенома:
  12. qnpge

Выходные log-файлы для (2) и (4) команд: log_prepare, log_makepangenome. Основные выходные файлы: дерево геномов, описание генов, описание всех мутаций в блоках, с консенсусами всех блоков, описание блоков, с выравниваниями, таблица характеристик блоков. Папка npg лежит в директории~/term3/block2/credits/npg.

Задание 3.

Для описания стабильного ядра нуклеотидного пангенома понадобится файл с описанием блоков. Таким образом, количество s-блоков (stable) составляет 414 (нуклеотидов всего 6231719), размер нуклеотидного ядра как процент нуклеотидов в ядре от числа нуклеотидов во всех геномах ("The percentage of input length") - 63.72%, процент числа колонок в объединенном выравнивании s-блоков от суммарного числа колонок во всех блоках НПГ ("The percentage of total blocks' length") - 46.35%.
Процент консервативных колонок в объединённом выравнивании s-блоков ("Identity of joined blocks") - 97.0506%.

Задание 4.

Для выполнения данного задания использовался файл с таблицей характеристик блоков. Импортировав файл в Excel, находим наибольший h-блок, в котором содержится по одному фрагменту из двух геномов, но не во всех. Применяем методы электронных таблиц: после импорта, сдвигаем столбцы, находящиеся после поля "blocks", для удобства разделяем его (в качестве разделителя возьмём "х", затем "n"), сортируем по длине выравнивания (числу колонок в выравнивании) по убыванию, фильтруем (вводим "h", чтобы отобразились строки, содержащие запись h-блока). Для визуализации выравнивания и блоков и поиска генов была действована команда qnpge.

Таблица 1. Крупные делеции в геномах.
Геном Имя блока с делецией Длина делеции Имена одного или нескольких делетированных генов
Acidithiobacillus ferrivorans str. PRJEB5721 h2x7132 7132 Glycosyltransferase
Acidithiobacillus ferrivorans str. XJFY6S-08 h2x8648 8648 Type II and III secretion system protein, Type II secretion system protein E (также сюда попали гипотетический белок и белок с неизвестной функцией)
Acidithiobacillus ferrivorans str. SS3 h2x53452 53452 Methyl-accepting chemotaxis protein, Chemotaxis protein CheV, Flagellar motor switch protein FliM, Flagellar motor switch protein FliG

Задание 5.

Для того, чтобы узнать, какие перестановки синтений (g-блоков) произошли, дальше работали в NPG-explorer (команда qnpge). Примером является блок g3x5065, который у генома штамма SS3 сдвинулся на 26 позиций от остальных геномов. Перед этим блоком находится блок g3x121n1 на 239 позиции, который сдвинулся на 87 позицию у второго штамма. За блоком g3x5065 находится блок g3x107 на 235 позиции, который сдвинулся на 85 позицию у второго штамма. Такие сдвиги, скорее всего, произошли из-за неправильного выравнивания блоков.

syn1
syn2
Рис.1. Перестановка g-блока.

Задание 6.

Поиск производился в блоке s3x58289. На рис.2 видно, что при одинаковых последовательностях нуклеотидов у PRJEB5721 и XJFY6S-08 (однако в них записаны два белка: Segregation and condensation protein A и триптофан-тРНК-лигаза), у SS3 тоже записаны два белка: Chromosome segregation and condensation protein и триптофанил-тРНК-синтетаза.
qnpge подсвечивает сиреневым цветом участки пересечения двух генов, аннотированных в одном геноме. Такие пересечения произошли, возможно, в процессе транскрипции.

error1
Рис.2. Пример ошибки аннотации.