Выравнивание геномов


сайт ФББ

сайт МГУ

Карта локального сходства геномов двух видов бактерий

Для построения карты были выбраны две бактерии одного рода: Bacillus cereus NC7401 (AC AP007209.1) и Bacillus anthracis strain A1144 (AC NZ_CP010852.1). Карта была построена с помощью blast2seq, предсталена на рисунке 1.

Рис. 1. Карта локального сходства

На карте зеленым прямоугольником обведен небольшой участок, где произошли транслокация и инверсия; фиолетовым - маленькая делеция; желтым - транслокация.

Поиск сходств и различий между штаммами с помощью построения нуклеотидного пангенома

Для пангенома были выбраны 4 различных штамма Bacillus anthracis - возбудителя сибирской язвы:

Информация о последовательностях ДНК штаммов в файле genomes.tsv. Далее была выполнена цепочка команд для построения пангенома:

npge -g npge.conf

npge Prepare

npge Examine

npge MakePangenome

npge PostProcessing

Таким образом был получен пангеном со множеством сопутствующих файлов, который рассматривался с точки зрения содержания в нем различных блоков.

  • g-блоки

Глобальные блоки - объединения консервативных блоков (s-блоков), перемеженных вариабельными участкамии (блоками других типов, которые вместе составляют i-блоки).

В файле global-blocks/blocks.gbi указано наличие 2-х g- и 8-ми i-блоков. При октрытии qnpge.exe выводится выравнивание глобальных блоков, оно на рисунке 2.

G-блоки

Рис. 2. Выравнивание g-блоков

  • s-блоки

Стабильные блоки, "ядро" геномов. Файл pangenome/pangenome.info говорит о них следующее:

Количество s-блоков: 232.

Суммарная длина/% от усредненной длины генома: 20331497/97,36%.

Сходство геномов (доля консервативных позиций в объединенном выравнивании s-блоков): 0,999727.

  • r-блоки

Блоки с повторами. Судя по файлу pangenome/pangenome.bi, их 136 штук.

Самый частый r-блок: r45x351 (соответственно, содержит 45 фрагментов). Блок почти целиком состоит из генов (кроме примерно трех десятков позиций в конце блока). Интересно, что один из 45 повторов не отмечен как ген, хотя отличается только лишь одной заменой, хоть и на очень консервативной позиции (рисунок 3). Ген отмечен как 5S-рибосомальная РНК. Возможно, второй гуанин действительно принципиально важен для пространственной структуры продукта гена. Но мне кажется, что тут вероятнее ошибка при автоаннотировании генов.

r45x351

Рис. 3. Фрагмент выравнивания r45x351

Самый большой r-блок: r44x2663 (соответственно, в его выравнивании 2663 позиции). Тоже состоит почти полностью из генов (кроме участва из шести десятков позиций в начале). Также является геном 5S-рибосомальной РНК.

  • h-блоки

"Полустабильне" блоки, на их примере предлагалось отследить делеции. Их у меня в пангеноме немного - всего 7 штук.

5 из них относятся к делециям из генома штамма A1144:

  • h3x19197 - содежит множество генов, например, гены субъединицы РНК-полимеразы, σ-фактора, гистидин-киназы и другие. Было бы странно, если бы такой крупный и полный важных генов участок действительно подвергся делеции. Сначала я просто поискала некоторые из обозначенных в блоке генов в аннотации генома A1144 на NCBI. Убедившись, что они действительно есть, но могут находиться далеко друг от друга в геноме, я решила, что, скорее всего, последовательность, соответствующая этому блоку, у штамма A1144 есть, но c ней могли произойти изменившие ее эволюционные события. Возможно, кусок этого участка подвергся транспозиции.

  • h3x3449 - тоже вроде бы важный кодирующий участок: гены белка клеточного деления, регулятора транскрипции, пептидазы. Я проделала то же, что и с генами предыдущего блока, и пришла к тем же результатам.

  • h3x198 - содержит гипотетический белок.

  • h3x5192 - содержит гены, например, белка биогенеза цитохрома С и диацилглицерил-трансферазы. Я поискала эти два гена в аннотациях разных штаммов и выяснила, что тут на самом деле произошла делеция - у штамма A1144 эти гены находились в количестве на один меньше.

  • h3x100 - содержит ген белка семейства MFS. Интересно, что этот ген так обозначен только в двух штаммах из трех - у Stendal это просто ген гипотетического белка. Но я думаю, что консервативное выравнивание этого блока (на рисунке 4) приоткрывает завесу тайны над этим гипотетическим белком. Кстати, среди u-блоков есть один (u1x103) с геном белка семейчтва MFS для штамма A1144. Совпадение? Скорее всего, ведь семейство частое, а последовательности на глаз не похожи. Но все же факт интересный. Возможно, в A1144 в ходе эволюции функция гена из h-блока перешла к другому гену.

h3x100

Рис. 4. Фрагмент выравнивания h3x100

Напрашивается предположение, что штамм A1144 оформился раньше остальных.

  • u-блоки

Уникальные последовательности, встречающиеся только в каком-то одном из геномов пангенома. У меня таких 9, и 6 из них принадлежат штамму A1144, что согласуется с выдвинутым ранее предположением.

Для более близкого знакомства я выбрала блок u1x111 из генома A1144. В блоке - ген ДНК-связывающего белка (рисунок 5).

u1x111

Рис. 5. u1x111

Для этой последовательности я запустила нуклеотидный BLAST, огданичив область поиска бактериями, все результаты на рисунке 6.

u1x111

Рис. 6. Выдача BLAST по последовательности u1x111

Видно, что этот мотив част среди штаммов B. anthracis. Если и был горизонтальный перенос этого мотива от B. cereus или B. thuringiensis, то очень давно: последовательность успела мутировать и широко распространиться по виду.

© Дарья Горбачева

изменено 8.03.2016