Практикум 9. Поиск de novo сигналов в ДНК.


В первом полугодии я работала с геномом бактерии Xanthomonas cucurbitae, она была выбрана объектом этого практикума. Целью практикума был поиск в геноме бактерии сигналов, ассоциированных с инициацией транскрипции, то есть промоторов.

Файлы с геномной аннотацией и последовательностью генома загружены в папку prac9 на Кодомо, название файлов: genomic.gff и genome.fna соответственно.

С помощью кода на Python из файла были отобраны координаты начала CDS и записаны в файл start.txt

В полученном файле 2043 строки, то есть в геноме бактерии 2043 CDS, а следовательно, 2043 промотора. Выберем из промоторов 400 случайных, и запишем их последовательности в файл promoters.txt с помощью скрипта. Предварительно был скачан файл genome.fna с последовательностью генома бактерии, откуда и отбирались промоторы. Бактериальный промотор имеет длину от 100 до 1000 нуклеотидов, но мы ограничимся отбором 100 нуклеотидов слева от начала CDS.

В качестве контроля были отобраны 400 случайных последовательностей длины 100 из генома (файл control.txt).

Поиск мотивов в контроле производился с помощью MEME: meme control.txt -dna -nmotifs 5 -minw 6 -maxw 30.

Я “попросила” программу найти 5 мотивов, поэтому MEME остановила поиск на 5 мотивах. Из 5 найденных мотивов три обладают недостаточно низкими e-value (7.5e+000, 7.0e+001, 3.0e+002), а у двух мотивов со значимыми e-value эти показатели сильно различаются: у одного мотива 5.3e-093 (очень хорошее значение!), а у другого 4.2e-005, что является менее хорошим показателем. Ниже приведено LOGO мотива с наиболее низким e-value. Не стоит забывать, что мы ведем поиск в контроле (случайной выборке из последовательностей генома), поэтому такое низкое значение e-value может быть обманчивым. Кроме того, значения информационного содержания и относительной энтропии не очень высокие - 11,9 и 9,7 соответственно. Число находок данного мотива - 288.

Ссылка на выдачу MEME для контроля

Найденный мотив был проверен с помощью FIMO: fimo --norc -motif SAKCRNSRNSDYSSSCRNSVNSVYGVYGVN meme_out_control/meme.txt genome.fna

FIMO нашла 50483 вхождений мотива в геноме с e-value меньше 0.0001. Возможно, этот мотив является значимым для генома данной бактерии (например, является сайтом связывания регуляторного белка), но это предположение требует дальнейшего исследования, которое не входит в рамки данного практикума.

Ссылка на выдачу FIMO для контроля


Поиск мотивов в промоторах с помощью MEME: meme promoters.txt -dna -nmotifs 5 -minw 6 -maxw 30

Было найдено 5 мотивов, у четырех из них e-value достаточно низкие (в недостаточно низким e-value только один мотив, его e-value 1.0e-002). Меня немного удивило то, что не у одного из мотивов нет такого аномально низкого e-value, как у мотива найденного в контроле. Возьмем мотив с самым низким e-value (6.4e-005) и проверим его с помощью FIMO: fimo --norc -motif CSMTTCYCSMTTCCCGMYTCCCCATTCCC meme_out/meme.txt genome.fna

Ссылка на выдачу MEME для промоторов

Ссылка на выдачу FIMO для промоторов

FIMO нашла 2208 вхождений мотива в геноме с e-value меньше 0.0001. Это довольно хороший результат, с учетом того что в геноме бактерии 2043 CDS, как было сказано выше, то есть вхождений мотива нашлось даже больше, чем белок-кодирующий последовательностей. Могу предположить на основании этого, что данный мотив встречается не только в белок-кодирующих последовательностях, но и в последовательностях, кодирующих некодирующие РНК.