Факторы транскрипции. Поиск de novo сигналов в ДНК

Подготовка данных

В рамках данного практикума мной была предпринята попытка нахождения последовательности сайтов посадки сигма-фактора РНК-полимеразы в геноме бактерии Enterococcus lactis, описанной в в миниобзоре. Для этого я взяла код с учебной страницы Масленникова Вячеслава, за что выражаю ему благодарность, и немного переделала его для поиска выбранного мною сигнала. На основании файла с последовательностью генома бактерии, а также файла с аннотацией, взятых из БД NCBI, c помощью скрипта, было получено 3 файла:

Группа положительного контроля - здесь для каждого CDS из генома было вырезано 32 нуклеотида перед старт-кодоном с учетом ориентации цепи. Fasta-файл с последовательностями.

Группа отрицательного контроля - здесь для каждого CDS из генома было вырезано 32 нуклеотида после старт-кодона с учетом ориентации цепи. Fasta-файл с последовательностями.

Тренировочная группа - здесь были отобраны из группы положительного контроля гены наиболее консервативных белков (гены, связанные с транскрипционными, трансляционными факторами, гены рибосомальных белков и тд), здесь ожидается найти нашу искомую последовательность или нечто схожее с ней (выявить паттерн и консенсус для бактерии Enterococcus lactis). Fasta-файл с последовательностями.

Поиск сигнала с помощью MEME

meme promotors.fasta -dna -nmotifs 2 -minw 5 -maxw 10

Команда выше была использована для поиска мотивов длины 5-10 нуклеотидов, так как у искомых сайтов консервативны участки -10 и -35 примерно такой длины. Были получены следующие результаты:
photo

Изображение 1.Logo1, evalue=8.2e-045

photo

Изображение 2.Logo2, evalue=2.9e-001

photo

Изображение 3.Logo1-последовательность, комплементарная найденному мотиву

photo

Изображение 4.Logo2-последовательность, комплементарная найденному мотиву

Статистически более значимой является находка Logo1, так как у нее меньший e-value, поэтому дальше рассмотрим ее. Она имеет паттерн AAGGAGG, в котором нуклеотиды на каждой позиции весьма консервативны, поэтому консенсус выглядит так же. Последовательность не совсем совпадает с литературными данными, возможно это связанно с видовой особенностью организма. Однако продолжим дальнейший поиск.

Поиск с помощью FIMO

С помощью команд FIMO с установленным фильтром незначимых находок был проведен поиск найденного для группы обучения с помощью MEME мотива для двух оставшихся групп следующими командами:

fimo --oc fimo_pos -thresh 0.001 meme_out/meme.txt POSITIVE.fasta

fimo --oc fimo_neg -thresh 0.001 meme_out/meme.txt NEGATIVE.fasta

Результаты: fimo_pos и fimo_neg

Cреди находок в положительном контроле обнаружилось 828 значимых находок, а в отрицательном - всего 44. Исходя из полученных данных можно предположить, что найденная ранее последовательность AAGGAGG является аналогом сайта посадки сигма-фактора РНК-полимеразы у бактерии Enterococcus lactis.