Для выполнения задания данного практикума было решено выбрать следующий сигнал: точка начала репликации у бактерий (OriC). Многие бактерии имеют одну кольцевую молекулу ДНК и один такой oriC. Это довольно вариабельная область на бактериальной ДНК, которая является множественным сигналом, у разных видов бактерий ее длина, конкретные мотивы и сайты варьируют (длина в пределах 250 - 2000 п. о.). Тем не менее есть общие закономерности. Сигналы в этой области адресованы различным белкам, ответственным за инициацию репликации. Именно с этой области начинается репликация ДНК у бактерий. Здесь подробно рассмотрим данную область для E. coli, как для известного модельного организма и представителя с наиболее изученным oriC (конкретно у этой бактерии его длина составляет примерно 250 п.о.).
В общем в данной области можно выделить 3 функциональных участка:
Из описанного выше можно заключить, что данный множественный сигнал устроен очень сложно и имеет очень важное значения для бактерий, так как благодаря нему осуществляется один из важнейших процессов в жизнидеятельности организмов - репликация. Из-за такой важности и сложности организации можно предположить, что данный сигнал обладает высокой силой, это также подтверждает тот факт, что несмотря на свою вариабельность среди разных бактерий, область сохраняет какие-то общие черты и паттерны, свойственные большинству бактерий.
Согласно литературным данным (ссылка на источник) конкретно для штамма K12 MG1655 координаты oriC следующие: 3,923,767–3,923,998. Последовательность всего генома этого штамма можно увидеть здесь по данным NCBI. С помощью этого файла и следующего специализированного скрипта на языке Python была вырезана область oriC у этого штамма, результат можно увидеть здесь (конкретный пример данного множественного сигнала, в начале очень четко видна DUE).
В качестве сервиса, который способен искать выбранный сигнал, а именно oriC, был выбран сервис Ori-Finder 2022. Это удобный веб-сервис для поиска oriC в бактериальных геномах с высокой точностью и надежностью, с помощью этой программы были установлены ориджины репликации в более чем сотни недавно отсеквенированных геномах различных бактерий в различных исследованиях. Данный сервис способен прогнозировать месторасположение oriC в геноме бактерии, красиво визуализирует результаты, а также предоставляет различные инструменты для анализа найденного oriC и удобный интерфейс для взаимодействия. На Рис. 2 изображены схема работы данного сервиса:
На вход сервису нужно подать полный или черновой геном в формате fasta или GBK. Для прогнозирования месторасположения oriC сервис оринтируется на несколько факторов:
Для проверки работоспособности данного сервиса на вход ему была подана последовательность генома упомянутого в прошлом разделе штамма K12 MG1655 кишечной палочки (координаты oriC которой представлены так же выше). В качестве параметров дополнительно было указано название организма, тип сборки (Complete), в качестве основного гена-индикатора был выбран ген DnaA, в качестве мотива связывания DnaA с oriC был указан также упомянутый в прошлом разделе консенсус TTATCCACA. Сервис отработал достаточно быстро (время ожидания порядка парочки минут). Основной результат выдачи можно увидеть ниже на Рис. 3:
Видно, что сервис спрогнозировал два участка oriC, причем второй предсказанный участок 3,925,634 ... 3,926,011 оказался достаточно близок к истинному (ошибка на порядка 1500-2000 п.о., истинные координаты 3,923,767–3,923,998). Помимо этого в выдаче можно видеть экстремальные участки GC-состава, а также гены-индикаторы. Помимо этого сервис построил Z-кривую для последовательности генома, которую можно видеть на Рис. 4, минимумы GC-состава на ней (зеленая кривая) соответствуют как раз позиции спрогнозированных oriC.
Также данный сервис выдает саму последовательность спрогнозированного oriC и расположение предсказанных в нем функциональных участков. На Рис. 5 можно видеть это для второго наиболее близкого к истине результата:
Видно, что сервис сумел предсказать наличие 5 R-сайтов, 3 I-сайта, DUE, IHF, Fis-сайты. Подводя итог, можно сказать, что учитывая размеры геномов, а также саму сложность задачи поиска oriC, данный сервис достаточно хорош, удобен и прост в использованни, выдает много полезной информации, находит oriC достаточно точно.
Текст и оформление отчета было сделано совместными усилиями.