90
|
|
Задание 1. Карта сходства хромосом двух родственный бактерий
Я построила карту сходства для двух разных штаммов археи Methanococcus maripaludis. Эту анаэробную архею часто использует в лабораториях в качестве модельного организма. (Microbe wiki, фотография из Bacterial Genome Atlas) Query(по горизонтали) - Methanococcus maripaludis C5 Subject(по вертикали) - Methanococcus maripaludis X1 Основная линия идет из левого верхнего в правый нижный - это значит, что одна из последовательностей была секвенирована по комплементарной цепи. Рассмотрим основные события, отраженные на этой карте. В красные рамочки обведены инверсии. Видно, что присутствует два очень больших инверсированных участка(620K-780K и 820К-1060К в геноме C5) , один поменьше(1380-1420К по С5). В зеленую рамку обведена вставка в геном Methanococcus maripaludis X1(550-600 К по геному X1) . Участок, обведенный в желтую рамку, расположен таким образом из-за того, что последовательности в файлах начинаются с разных мест(геном же кольцевой). Задание 2. Сходства и различия геномов близкородственных бактерий. Подготовка данных. Для выполнения данного задания необходимо построить нуклеотидный пангеном с помощью пакета NPG-explorer. Я создала файл genomes.tsv. Для сравнения я выбрала геномы трех штаммов бактерии Rickettsia rickettsii, приведенных в примере: Rickettsia rickettsii str. Morgan - CP006010.1 Rickettsia rickettsii str. Hauke - CP003318.1 Rickettsia rickettsii str. Iowa - CP000766.3 Результат работы npge Examine(файл) показал, что рекомендуемое значение MIN_IDENTITY: 0.900. Я оставила его таким в файле npge.conf. Изменила количество работающих процессоров до 1. Для просмотра графического представления данных я скопировала qnpge.exe на своем компьютере в директорию с файлами. Далее я анализировала данные, полученные программой. g-блоки.Из файла blocks.gbi я выяснила, что g-блок только один, соответственно про порядок g-блоков говорить не имеет смысла. Этот блок - g3x1269809 - состоит из трех фрагментов, в выравнивании блока 1269809 позиций. s-блоки. Дальнейшую информацию я получала из файла pangenome.info. s-блоков, то есть стабильных было найдено 103, причем их процент от длины генома в среднем - 99.34%. Суммарная длина - 1252194 нуклеотида. Процент консервативных позиций в объединенном выравнивании s-блоков: 99.9828%. Повторы. Информацию о повторах я брала из файла pangenome.bi. Для удобства я преобразовала его в таблицу excel - ссылка. Таблица отсортирована по названиям и, следовательно, по типу блоков. Для рассмотрения повторов я выбрала блоки r18x107 и r15x118(выделены в таблице голубым). Видно, что r18x107 повторяется по 7 раз в геномах Hauke и Morgan, 4 раза в геноме Iowa, его длина 107. Процент идентичных позиций - 90.65%, количество идентичных позиций без гэпов - 97. r15x118 повторяется по 6 раз в Hauke и Morgan, 3 раза в Iowa, его длина 118. Процент идентичных позиций - 99.15%, количество идентичных позиций без гэпов - 117. Делеции. Для описания делеций необходимо было рассмотреть 2-3 h-блока. В моем пангеноме он только один :(( - h2x129, выделен светло-красным в таблице. Этот участок длиной 129 нуклеотидов присутствует в геномах Iowa и Morgan, но его нет в геноме Hauke, из чего можно предположить, что в данном штамме произошла делеция данного участка. Генов это участок не кодирует. Уникальные последовательности. В пангеноме не оказалось u-блоков. Вероятно, штаммы очень близкие, поэтому уникальных последовательностей не обнаружилось. Примеры расхождений между аннотациями генов из одного блока . Первое расхождение, которое я обнаружила - это отсутсвие аннотации гена метионин аминопептидазы у штамма Morgan. Найдено в блоке s3x13368. Рис.2 Блок, в котором не совпадают аннотации участков Рис.3 Ген аннотирован у штамма Hauke Рис.4 Ген аннотирован у штамма Iowa Рис.5 Аннотация у Morgan отсутствует В этом же блоке я нашла странное расхождение между терминальным кодонам гена ферредоксина. На рис.6 видно, что у Hauke и Morgan это последовательность CAT, у Iowa - САС, хотя различий в нуклеотидных последовательнотях нет. Рис.6 Расхождение в стоп-кодоне Еще одно интересное расхождение в аанотациях генов из этого блока: последовательность у штамма Hauke отмечена как ген цитозин диаминазы, а у Iowa как штамм аденозин диаминазы. Цитозин и аденозин - это пиримидиновое и пуриновое основания, все-таки отличающиеся по структуре. Но это, возможно, отличие не очень существенное. Рис.7 Аннотация у Hauke Рис.8 Аннотация у Iowa Впечатления от результатов. Еще глядя на дендрограмму геномов штаммов Rickettsia rickettsii можно было бы предположить, что вставок/делеций будет найдено мало. Интересно было найти много раз повторяющиеся в геномах участки - насколько я понимаю, это могут быть вирусные геномы или самовоспроизводящиеся последовательности. |