Выравнивание геномов

Задание 1. Выбор прокариотического организма с полностью собранным геномом

Для исследования были взяты геномы четырёх штаммов Sulfolobus islandicus: M.16.40, M.16.23, M.16.2 и L.D.8.5. К роду Sulfolobus относятся археи, которые обитают в вулканических источниках при оптимальных для них pH 2-3 и температурах 75-80 ° C, что делает их ацидофилами и термофилами соответственно. Для анализа полногеномного выравнивания исследуемых последовательностей с помощью программы NPG-explorer был создан файл genomes.tsv.

Задание 2. Построение нуклеотидного пангенома с помощью NPG-explorer

Для построения нуклеотидного пангенома были использованы последовательно опции -g, Prepare, Examine, MakePangenome, PostProcessing. С выдачей соотвествующих программ можно ознакомиться по следующим ссылкам:Prepare, MakePangenome. Программы Examine и PostProcess ничего не выводят в stdout, а команда npge.exe -g npge.conf создает соответсвующий файл, в котором согласно рекомендации программы Examine параметр MIN_IDENTITY был установлен равным 0.888.

Таким образом, в результате последовательного выполнения всех команд были получены следующие файлы:

Задание 3. Описание стабильного ядра нуклеотидного пангенома

Информацию о стабильном ядре можно найти в файле c описанием блоков. Нуклеотидный пангеном включает в себя 286 стабильных блоков, процент нуклеотидов в ядре от общего числа всех нуклеотидов равняется 80.92%, доля длины стабильных блоков от длины всех блоков составляет 65.81%. Процент консервативных колонок в объединённом выравнивании s-блоков составляет 98.9268%.

Задание 4. Описание крупных делеций

С помощью Excel были отобраны только h3-блоки и для каждого штамма был выбран наибольший по длине h3-блок, в котором отсутсвует последовательность этого штамма. Информацию об отобраных h3-блоках можно посмотреть в xlsx-файле. Из-за ошибки в аннотации гены отображались только для одного из штаммов, однако на всем промежутке предполагаемого гена последовательности имеют высокий процент похожести, поэтому были приведены полные названия генов.

Таблица 1. Крупные делеции в геномах архей Sulfolobus.
Штамм Длина делеции Делетированный блок Гены в этом блоке
L.D.8.5 10890 h3x10890 генов найдено не было
M.16.23 7174 h3x7174 2654 CDS LD85_2814 regulatory protein, AsnC/Lrp family (L.D.8.5), 771 bp
2662 CDS LD85_2816 4Fe-4S ferredoxin, iron-sulfur binding domain (L.D.8.5), 1437 bp
M.16.40 6954 h3x6954 1292 CDS LD85_0943 CRISPR locus-related DNA-binding protein (L.D.8.5), 612 bp
1300 CDS LD85_0944 CRISPR-associated protein, Csa5 family (L.D.8.5), 432 bp
1301 CDS LD85_0948 CRISPR-associated helicase Cas3 (L.D.8.5), 1524 bp
1307 CDS LD85_0949 CRISPR-associated HD domain protein (L.D.8.5), 720 bp
1302 CDS LD85_0951 CRISPR-associated protein Cas6 (L.D.8.5), 897 bp
M.16.2 3845 h3x3845 1016 CDS LD85_0637 ATPase associated with various cellula (L.D.8.5), 1659 bp

Задание 5. Описание перестановок синтений

На Рисунке 1 можно видеть, что в геноме штамма L.D.8.5 произошло несколько крупных престановок, так относительно аналогичных блоков из других трех штаммов поменяли свое местоположение блоки g4x22143, g4x3071, g4x28651. Большое количество отличий генома штамма L.D.8.5 также следует из построенного программой дерева (Рис. 2), так как данный штамм имеет самую длинную ветвь.

Рисунок 1. Наибольшее число перестановок возникло в штамме L.D.8.5.
Рисунок 2. Дерево штаммов, построенное по полногеномному выравниванию.