|
|
Занятие 10, блок 3. Поиск сигналов(1). Задание 1. Сравнение состава систем рестрикции модификации, закодированных в двух штаммах одного вида В данном задании требуется сначала получить, а потом сравнить предполагаемые наборы систем рестрикции модификации в геномах бактерий одного и того же вида. Мне выпала бактерия Veillonella parvula с идентификатором CP001820.1. Это грам-отрицательная, анаэробная бактерия, живущая в кишечнике и зубном налете человека(ссылка на Microbe Wiki). Систему рестрикции-модификации можно обнаружить по "избегаемым" в геноме сайтам рестрикции: необходимо сравнить наблюдаемое число сайтов с ожидаемым числом. Мы считаем, что если отношение этих чисел(контраст) меньше 0.78, значит бактерия, вероятно, содержит связанную с этим сайтом систему Р-М. С помощью специального сервиса можно вычислить контраст по имеющейся последовательности генома и списку сайтов рестрикции-модификации. Для вычисления мы используем метод Карлина. выдача по геному из NCBI выдача по бактерии из метагенома кищечника Для генома из NCBI обнаружилось 3 сайта с подходящим контрастом, 2 из которых были уникальными для данного генома. Для генома из бактерии, жившей в кишечние человека нашлось 3 уникальных возможных системы Р-М. Общим для обоих геномов являлся сайт GATC. файл с отобранными избегаемыми сайтами - на первой страничке приведена информация по отобранным сайтам, на двух других проводился их отбор. На странице NCBI по данному геному указано, что жила бактерия тоже в кишечнике человека. Мне бросилась в глаза строчка "Collection Date :: before 1898". В поле COMMENT написано, что ДНК и огранизм, послуживший источником, можно получить в Коллекции Микроорганизмов и Клеточных Культур Германии. Не очень понятно, клетки хранились замороженными? Так или иначе, если ДНК бактерии из NCBI действительно соответсвует ДНК бактерии, жившей в кишечнике человека в 1898 году, нет ничего удивительного, что набор систем Р-М различен. Не знаю, когда получены контиги, но думаю, прошло достаточно времени, чтобы несколько изменились условия жизни в кишечнике(другая еда, экология и т.д.) и бактерии генетически разошлись. Задание 2. Поиск последовательностей Шайн-Дальгарно в геноме Sorangium cellulosum so ce 56. Из базы GeneBank я скачала последовательность полного генома моей бактерии Sorangium cellulosum so ce 56 - AM746676.1. Далее я получила список CDS из данного генома и отобрала наиболее длинные и хорошо аннотированные, оставила 999 генов из 9375. Последовательность Шайн-Дальгарно(ШД) - это сайт связывания рибосом на молекуле мРНК прокариот, обычно на расстоянии около 10 нуклеотидов до стартового кодона AUG[1]. Последовательность в большинстве случаев состоит и нуклеотидов GGAGG. С последовательностью ШД в процессе инициации трансляции бактерий и архей связывается малая субъединица рибосомы[2]. В результате для поиска ШД была выбрана область от -16 до -1 нуклеотида кодирующей области. С помощью python-скриптов я получила 2 файла с областями поиска генов - 999 областей из "хороших генов", и области поиска для всех генов моей бактерии. По первому файлу я запустила программу по поиску мотива на сайте MEME suite с соответсвующими параметрами: - 0 или 1 мотив в области поиска - программа будет искать не более 3 разных мотивов - длина мотива от 4 до 6 нуклеотидов - искать только на указанной цепи В результате, MEME нашел мотив, явно похожий на ШД, с e-value 9.7e-025. Два других найденных мотива для рассмотрения не интересны. Рис.1 Список мотивов, найденных MEME Далее я запустила МЕМЕ с теми же параметрами, только уменьшила количество мотивов для поиска. Из выдачи программы я получила позиционную матрицу весов (PWM) и Logo найденного мотива. Рис.2 Позиционная матрица весов мотива Шайн-Дальгарно, построенная программой МЕМЕ Рис.3 Лого найденного мотива Далее проводился поиск мотивов по всем генам моей бактерии по расширенной области(от 1 до 25 нуклеотидов) с помощью программы FIMO. Порог pvalue был выставлен 0.001. Выдача программы fimo в виде таблицы Всего найдено 853 мотива. Гистограмма распределения расстояний до старта трансляции предствалена ниже. Рис.4 Гистограмма расстояний до старта трансляции Получается, что ШД найден перед 9% генов бактерии Sorangium cellulosum so ce 56. В PubMed по ключевым словам "Sorangium cellulosum" и "Shine-Dalgarno" ничего не находится, по ключевым словам "Sorangium cellulosum" и "genome" или "translation" находятся статьи, однако нужной информации в них, по-видимому нет. Гугл тоже не помог. Для найденных мотивов было построено лого. Рис.3 Лого по всем мотивам, с p-value менее 0,001 Гистограмма подтверждает литературные данные, указывающие, что ШД начинается приблизительно с 10 нуклеотида до старт-кодона. |