Практикум 9
Сначала последовательности генома были скачаны и размечены с помощью скрипта python. По смыслу: из gff вытаскиваются координаты CDS. По полученным координатам на -100 извлекаются последовательности промоторов. Получается файл fasta с последовательностями промоторов. Для извлечения межгенных промежутков(отрицательный контроль): аналогично получаются координаты CDS, потом они накладываются отсортированно на всю последовательность. Все части, которые лежат между концом одного и начала другого гена(с исключением промотора) записываются как межгенные промежутки. Скрипты можно посмотреть здесь: Промоторы, Межгенные промежутки.
C помощью meme был проведен поиск мотивов de novo. Результат полностью можно посмотреть. Находки показаны на рисунке 1.
Рис.1 Найденные meme мотивы
Полученные лого показывают консенсус найденных мотивов. Ни на один очень известный мотив они не похожи. Но организм - архея. Была надежда найти TATA бокс, но этого не получилось. Все найденные последовтельности похожи на мотив сайта BRE (TFIIB Recognition Element), который распознается фактором инициации транскрипции TFIIB. Он обычно расположен рядом с TATA-боксом и помогает в инициации транскрипции. Консенсус у него сам по себе вариативный: SSRCGCC, где S обозначает C или G.
Для относительной оценки качества был проведен поиск с помощью fimo на пространсве промоторов и межгенных промежутков. Результаты fimo: промоторы, межгенные промежутки. Логично ожидалось увидеть статистически значимые находки в большом количестве на промотрах, и наоборот не найти на межгенных промежутках. Однако такого не получилось, статистичсеких находок много в обоих случаях. Различие заметно лишь в том, что в межгенных промежутках найдены только мотивы 2. Почему так получилось, не совсем понятно. Могу предположить, что главное, наверное это все таки особенности работы meme и fimo. С другой стороны, так как сам консеснсус вероятного сайта очень вариантивный, найти его случайно довольно просто.