Учебный сайт Ивановой Софьи

Главная 1 семестр 2 семестр 3 семестр Ссылки Обо мне Контакты

Практикум 10. Сравнение геномов



Задание 1.Постройте карту сходства хромосом двух родственных бактерий

В качестве первого организма я выбрала Mycobacterium tuberculosis strain 96121 (AC NZ_CP009427.1). В качестве второго - Mycobacterium smegmatis strain INHR2 (AC NZ_CP009496.1).

Рис.1 Карта локального сходства геномов данных бактерий

Размеры геномов:

  • Mycobacterium smegmatis strain INHR2 - 6988302 bp

  • Mycobacterium tuberculosis strain 96121 - 4410945 bp

    Видно, что размеры геномов этих бактерий отличаются в полтора раза. Ожидаемо, что у M. smegmatis будет видно множество вставок.

    Проанализируем карту локального сходства. Во-первых, видно, что в данных геномах присутсвует несколько крупных выравненных фрагментов. Можно утверждать, что они гомологичны, и в них сходна не только нуклеотидная последовательность генов и некодирующих участков, но и взаимное расположение элементов. Также присутствует множество более мелких находок, которые могут соответствовать эволюционным изменениям небольших участков генома. несколько крупных эволюционных событий. Их мы рассматривать не будем, а разберемся с крупными эволюционными событиями.

    1. Инверсия в районе 2 Mb генома M.tuberculosis (NZ_CP009427.1)

    Рис.2 Инверсия + вставка (у NZ_CP009427.1) или делеция (у NZ_CP009496.1)

    Выделенный фрагмент генома M.tuberculosis (NZ_CP009427.1) инвертирован у M.smegmatis (NZ_CP009496.1). Кроме того, у M.smegmatis не хватает кусочка в середине данного инвертированного фрагмента; либо у M.smegmatis произошла делеция, либо у M.tuberculosis - вставка. (Необходимо оговориться, что без дополнительных исследований, - например, построения филогенетического дерева этих и группы родственных организмов, - невозможно определить, является конкретное эволюционное событие вставкой или делецией. Что касается инверсии, тоже невозможно определить без дополнительной информации, какое состояние - как у M.tuberculosis или как у M.smegmatis - было предковым).



    2. Инверсия + транслокация в районе 1-1.5 Mb и 3-4 Mb генома M.tuberculosis (NZ_CP009427.1)

    Рис.3 Два случая инверсии, сопряженной с транслокацией, в данных геномах

    Два очень крупных фрагмента претерпели инверсию и транслокацию. При этом из карты видно, что фрагменты 1 и 2 поменялись местами в геноме.

    3. Пример вставки/делеции - в районе 2.4 Mb генома M.tuberculosis (NZ_CP009427.1)

    Рис.4 Вставка/делеция в районе 2.4 Mb генома M.tuberculosis

    В районе 2.4 Mb генома M.tuberculosis отсутствует фрагмент длиной около 0.4 Mb, имеющийся в геноме M. smegmatis.

    Подобных вставок/делеций в этих геномах довольно много, именно им соответствуют изломы и небольшие разрывы сплошных линий.



    Задание 2. Опишите сходство и различие геномов близкородственных бактерий

    Метод: построение нуклеотидного пангенома (NPG) с помощью пакета NPG-explorer Нуклеотидныq пангеном - этоспециальный формат для множественного выравнивания геномов, ориентированный на геномы близкородственных бактерий или архей. Материал: геномы 3-4х разных штаммов одного вида.


    В качестве организмов, чьи геномы анализировали, были выбраны три бактерии: Acinetobacter baumannii strain AB031 (AC CP009256.1), Acinetobacter baumannii strain AB030 (AC CP009257.1) и Acinetobacter baumannii strain AbH12O-A2 (AC CP009534.1). Геномы выбранных бактерий я проверила на наличие достаточного количества гомологичных участков с помощью blast. Карты выравниваний свидетельствовали о хорошей гомологии.

    Далее я создала файл genomes.tsv. Затем следовала последовательно инструкциям по работе с NPG-explorer.

    Краткая справка по терминологии:
    s-блоки - стабильные (коровые) блоки, по одному фрагменту из каждого генома
    h-блоки - "полустабильные" блоки - по одному фрагменту из части геномов
    u-блоки - и не блоки вовсе, а уникальные последовательности из одного генома, у них нет гомологов среди всех геномов, кроме самой себя
    r- блоки - блоки с повторами, по крайней мере, в одном геноме
    m-блоки - минорные блоки - короткие ( Список глобальных блоков - синтений - см. в global-blocks/blocks.gbi g-блоки (глобальные блоки) состоят из последовательно идущих во всех геномах s-блоков, перемежающихся блоками других типов (r-, h-, u- и m-).

    Идентификатор блока r34x1201 устроен так: r - тип блока (от repeat); 34 фрагмента в блоке; 1201 позиций в выравнивании блока; иногда приходится добавлять "n1", "n2" и т.п. на конце чтобы сохранить уникальность имен pangenome/pangenome.bi содержит информацию по каждому блоку, включая информацию фрагменты каких геномов входят в блок; удобен для поиска крупных делеций/вставок (h-блоки и u-блоки) анализа блоков с повторами.

    Результаты:

    Excel-таблица с результатами

    1) Описание синтеничных участков - g-блоков - и их перестановок в геномах:

  • Число g-блоков (согласно данным из визуализатора) = 30.

  • Их порядок в каждой хромосоме для всех геномов (выравнивание) приведен в прикрепленной таблице на листе g-blocks. Выравнивание вышло слишком длинным, чтобы вставлять его картинку на сайт. Привожу фрагмент для иллюстрации того, как оно выглядит в визуализаторе:

    Рис.2.1 Фрагмент выравнивания g-блоков.

    Несмотря на то, что я предварительно прогоняла геномы данных бактерий через blast2seq и карты выравниваний выглядели вполне приемлемо, бактерии были выбраны явно неудачно для учебных целей. Картина вышла довольно сложная.

    Поскольку g-блоки представляют из себя наборы последовательно идущих стабильных блоков, их перемещения соответствуют перемещениям крупных фрагментов генома. Эти перемещения и иллюстрирует полученное выравнивание. По результатам работы NPGE видно, что в процессе видообразования геномы этих трех бактерий претерпевали многочисленные так называемые крупные эволюционные события: инверсии, делеции, вставки и др.

    Хочу дополнительно привести карты локального сходства blast2seq, чтобы проиллюстрировать это.

    Рис.2.2 Карта локального сходства геномов Acinetobacter baumannii strain AB031 (AC CP009256.1)и A. baumannii strain AB030 (AC CP009257.1)


    Рис.2.3 Карта локального сходства геномов A. baumannii strain AB031 (AC CP009256.1) и A. baumannii strain AbH12O-A2 (AC CP009534.1)


    Рис.2.4 Карта локального сходства геномов A. baumannii strain AB030 (AC CP009257.1) и A. baumannii strain AbH12O-A2 (AC CP009534.1)



    Обсуждение расположения g-блоков по результатам работы NPGE.

    Всего 9 из 30 g-блоков занимают одинаковое положение во всех трех геномах (графа conservative в файле global-blocks/blocks.blocks). Остальные расположены по-разному. Например, некоторые блоки расположены в разных участках генома; или же конкретный g-блок занимает одно и то же место в геномах, но у одной из бактерий он инвертирован. Такие случаи видны из данных файла global-blocks/blocks.blocks.

    Например:

    Рис.2.5 Инвертированное расположение g-блока (выделен синим) у одной из бактерий - A. baumannii strain AbH12O-A2. На это указывает галочка, смотрящая в другую сторону.


    2) Описание ядра геномов - s-блоков:

    (Данные взяты из файла pangenome.bi и pangenome.info:)

    Рис.2.6 Фрагмент файла pangenome.info, посвященный s-блокам


  • Число s-блоков = 335

  • Их суммарная длина = 3168996 (69.59%)

  • Процент от длины генома в среднем - в файле pangenome.info не нашла, посчитала вручную: относительная суммарная длина s-блоков / кол-во s-блоков = 69.59%/335 = 0.2%.

  • Сходство геномов (процент консервативных позиций в объединенном выравнивании s-блоков) = 0.981306



    3) Описание повторов - на 1-2 примерах r-блоков:

    Для начала приведу несколько примеров r-блоков. Синтаксис таков: в идентификаторе блока r34x1201 r - тип блока (от repeat), в блоке 34 фрагмента, 1201 позиций в выравнивании блока.

    Рис.2.7 Некоторые r-блоки, найденные программой NPGE. Визуализация с помощью qnpge.

    Опишу подробнее блок r26x104. Он выделен серой полосой на рис.2.7. Этот блок содержит в совокупности фрагменты 3 генов (по одному на каждую бактерию) - это CDS натрий-протонового антипортера (IX88_16655_IX88_16655 sodium:proton antiporter (AB031), 5706 bp <). При этом части этого гена встречаются также в других повторах (например, в r19x105, рис. 2.7).

    Визуализатор предоставляет возможность посмотреть на выравнивание последовательностей, составляющих данный блок:

    Рис.2.8 Выравнивание последовательностей блока r26x104.



    Опишу также самый распространенный в этих геномах повтор - блок r80x833.


    Рис.2.9 Характеристики блока r80x833.

    Этот блок встречается в совокупности 80 раз и имеет большую протяженность последовательностей - около 830 п.н. При этом, что интересно, подавляющая часть повторов блока, а именно 76 из 80, принадлежат A. baumannii strain AB030, только 4 повтора - A. baumannii strain AbH12O-A2 (у A.baumannii strain AB031 нет ни одной такой последовательности). Большая часть последовательностей этого блока - кодирующие, и гены самые разные. У A. baumannii strain AB030 в повторах чаще всего встречается ген транспозазы - фермента вирусного происхождения, связанного с жизненным циклом некоторых вирусов, и, как следствие, со следами жизнедеятельности вирусов в геномах клеточных организмов. Такими следами являются некоторые повторы и мобильные элементы. Транспозаза способна связывать фрагменты ДНК и встраивать их в геном. Также у AB030 присутствуют другие гены, например, multidrug ABC transporter ATP-binding protein, homocysteine methyltransferase, несколько разных генов ионных каналов и других мембранных и регуляторных белков. Думаю, тот факт, что у A. baumannii strain AB030 ген транспозазы является частью данного повтора (r80x833), свидетельствует о вирусном происхождении этих последовательностей. Другие гены, возможно, были захвачены в процессе вырезания и перемещения мобильного элемента, которым, похоже, является этот повтор. У AbH12O-A2 одна последовательность некодирующая, три другие представляют из себя гены tRNA-Val, universal stress protein и гипотетического белка. Транспозазы нет.

    Рис.2.10 Выравнивание последовательностей блока r80x833.



    4) Описание крупных делеций на примерах h-блоков

    H-блоки - это "полустабильные" блоки, включающие по одному фрагменту из части геномов. То есть у какого-то из организмов данная последовательность отсутствует.

    Ниже представлены три самых длинных h-блока:

    Рис.2.11 Три самых длинных h-блока

    Они соответствуют трем крупным делециям. При этом все три данных блока отсутствуют у штамма AB031.

    Приведу для примера иллюстрации структуры блока h2x11087:

    Рис.2.12 Описание блока h2x11087

    Описание уникальных последовательностей (u-блоки)

    Требовалось аннотировать несколько уникальных последовательностей с помощью blastn и определить, являются ли они результатом горизонтального переноса из бактерий другого вида.

    В выдаче NPGE присутствует более десятка крупных уникальных фрагментов (длиной около 10 kb), а также большое количество более мелких.

    Рис.2.13 Некоторые u-блоки

    Например, я нашла у штамма AB030 блок u1x697, содержащий 1 ген, а именно, phage tail protein. Ген фагового белка в геноме бактерии явно является результатом переноса генов (из этого самого фага, вероятно).

    Рис.2.14 Блок u1x697


    Выдача nblast содержит только 3 достоверные находки, все - в штаммах бактерий того же вида. Возможно, эти три штамма (см. рис. 2.15) являются монофилетической группой, и их общий предок приобрел данную последовательность после отхождения от общего ствола, но до разделения штаммов. Довольно низкое покрытие последовательности в находках может означать потерю части гена у двух штаммов. А может, предки этих штаммов просто болели одним и тем же фагом, уже после расхождения от общего предка.

    Рис.2.15 Выдача blast по запросу последовательности из блока u1x697



    Еще один интересный u-блок - u1x1189.

    Рис.2.16 Блок u1x1189

    Он содержит сразу два гена, оба вирусные: HI1409 family phage-associated protein и phage F-like protein. Выдача blast показала примерно такие же результаты, как и с предыдущим блоком: часть последовательности есть у нескольких других штаммов того же вида (покрытие небольшое, около 17%, см. рис. 2.17), а также у холерного вибриона. Логично предположить, что эти два гена были приобретены путем горизонтального переноса от фага.

    Рис.2.17 Выдача blast по блоку u1x1189



    Примеры расхождений между аннотациями генов из одного блока

    1. В блоке s3x23809 различаются названия одного комплекта выравненных генов.

    Рис.2.18 Гомологичные гены с разными названиями из блока s3x23809

    У двух штаммов, AB030 и AbH12O-A2, данная последовательность аннотирована как ген, кодирующий signal peptide protein. У третьего штамма, AB031, аннотирован MarR family transcriptional regulator. Судя по выравниванию, данные гены очевидно гомологичны, но ортологичны ли - непонятно. В записях геномов штаммов AB030 и AB031 из GenBank в аннотациях рассматриваемых генов стоит пометка, что они аннотированы автоматически на основании гомологии (см. рис. 2.19). Можно ли верить в данном случае автоматической аннотации и утверждать, что продукт экспрессии гена в трех штаммах бактерий выполняет разные функции (то есть гены не ортологичны и имеют право называться по-разному)? Вообще говоря, нет. До тех пор, пока наличие и функционирование этого продукта в клетке не подтверждено экспериментально, сомнительно даже его существование.

    Рис.2.18 Аннотация рассматриваемого гена из записи генома A. baumannii штамма AB031 из GenBank

    Длина генов у трех штаммов одинакова и равна приблизительно 1710 п.н., при этом я насчитала 29 нуклеотидных замен в MarR family transcriptional regulator относительно signal peptide protein, то есть идентичность = 98,3% - весьма высокая. В целом, думаю, нельзя с уверенностью сказать, ортологичны ли рассматриваемые гены.



    2. Еще один случай расхождения аннотации генов - в блоке s3x50610.

    Рис.2.19 Выровненные гены с разными названиями из блока s3x50610

    В большом блоке s3x50610, содержащем в общей сложности 1148 генов, я наткнулась на выровненные гены с разными аннотациями. В штамме AB031 это глутатион-S-трансфераза, а в штаммах AB030 и AbH12O-A2 - 5S ribosomal RNA. Что само по себе странно. В выравнивании 7 однонуклеотидных замен на 693 п.н. длины, то есть последовательности явно гомологичны. Я попробовала выяснить, что же это все-таки за ген и как он был аннотирован в данных штаммах.

    У штамма AB030 ген был аннотирован автоматически c помощью алгоритма cmsearch, который используется для поиска РНК (см. рис. 2.20). То есть полностью доверять такой аннотации нельзя.

    Рис.2.20 Аннотация рассматриваемого гена из записи генома A. baumannii штамма AB030 из GenBank

    Далее я попробовала выяснить, действительно ли данная последовательность из AB030 и AbH12O-A2 похожа на 5S-рРНК. Вообще рРНК отличаются высокой консервативностью у разных организмов, по ним часто строят филогенетические деревья. Поэтому можно было ожидать, что если исследуемая последовательность и впрямь рРНК, то легко можно будет это доказать с помощью blast (должно быть много находок хотя бы из протеобактерий,группы бактерий, к которым относится A. baumannii) или путем сравнения с 5S-рРНК какой-нибудь, опять же, протеобактерии.

    Поиск данной последовательности из AB030 в blast выдал около 30 достоверных находок, все из A. baumannii. Это указывает на то, что найденная последовательность не рРНК - маловероятно, чтобы рРНК наших бактерий имела так мало общего с рРНК других организмов. Когда я специально нашла в Gene NCBI последовательность рРНК другого вида того же рода, Acinetobacter baylyi, и запустила blast. Было найдено множество результатов из разных бактерий, что подтверждает выдвинутые предположения. Потом, длина нашей последовательности - 693 п.н., а 5S-рРНК - обычно около 120 п.н. То есть все указывает на то, что наша последовательность не 5S-рРНК и аннотирована неверно. На всякий случай я получила выравнивание данной последовательности из A. baumannii AB030 с 5S-рРНК из Acinetobacter baylyi. В последовательностях есть схожие участки, разделенные длиными гэпами в 5S-рРНК из Acinetobacter baylyi. Насколько мне известно, сплайсинг у эубактерий встречается крайне редко, так что не думаю, что исследуемая последовательность имеет прямое отношение к 5S-рРНК. Скорее всего, с аннотацией произошла какая-то ошибка.

    Теперь разберемся с последовательностью из AB031, аннотированной как глутатион-S-трансфераза.

    Рис.2.20 Аннотация рассматриваемого гена из записи генома A. baumannii штамма AB031 из GenBank

    Оказывается, существование белкового продукта этого гена подтверждено - " аминокислотная последовательность похожа на RefSeq:WP_000587881.1", и даже есть protein_id = AIL74018.1.

    Поскольку последовательности из AB031 и AB030 очень похожи (identity = 0.99), а из AB030 и AbH12O-A2 полностью идентичны, можно заключить, что с высокой вероятностью при аннотировании данных последовательностей из AB030 и AbH12O-A2 произошла ошибка, и на самом деле это гены глутатион-S-трансферазы.


  • © Иванова Софья