Цель работы: Поиск в геноме бактерии Providencia rettgeri сигналов, связанных с инициацией транскрипции (последовательности -10 и -35 для сигма-субъединицы РНК-полимеразы) и трансляции (последовательность Shine-Dalgarno).
Cначала были взяты аннотации генома бактерии Providencia rettgeri в формате GFF и последовательность генома бактерии в формате FASTA (из NCBI). На основании этих данных при помощи немного дополненного мной скрипта Масленникова Вячеслава было создано 3 набора последовательностей (скрипт ищет и вырезает нужные участки в геноме по аннотации, после чего создает файлы с наборами):
Положительный контроль:
Для каждого CDS из генома вырезается 25 нуклеотидов перед старт-кодоном с учетом ориентации цепи (согласно литературным данным SD располагается в районе 10 нуклеотидов до старт-кодона примерно у каждого CDS). Последовательности.
Отрицательный контроль:
Для каждого CDS из генома было вырезается 25 нуклеотидов после старт-кодона с учетом ориентации цепи. Последовательности.
Рабочая группа:
Отбираются из группы положительного контроля гены тех белков, которые наиболее консервативны в природе в целом (гены, связанные с транскрипционными, трансляционными факторами, гены рибосомальных белков), здесь ожидается найти SD или что-то очень на нее похожее (выявить паттерн и консенсус для данной археи). Последовательности.
На основании созданной рабочей группы с помощью локального MEME в консоли был осуществлен поиск мотива похожего на SD следующей командой:
meme work.fasta -dna -nmotifs 1 -minw 5 -maxw 10
Искался один мотив (-nmotifs 1) длиной от 5 до 10 нуклеотидов (-minw 5 и -maxw 10), что как раз соотвествует SD согласно литературным данным. Полную выдачу MEME можно увидеть здесь (текстовый формат выдачи тут). На Рис. 1. можно видеть лого-диаграмму для найденного мотива.
Из результатов выдачи программы MEME можно заключить, что находка является статистически значимой (низкий E-value = 5.8e-006). Паттерн найденного мотива следующий: WYTWWGGAG; а консенсус: ATTAAGGAG. Видим, что имеются сильные сходства с SD, особенно последние 5 букв (по литературным данным SD богата AG, а консенсусом считается AGGAGG). Теперь можно попробовать отыскать этот мотив в группах для контроля.
С помощью локального FIMO в консоли был осуществлен поиск найденного для рабочей группы с помощью MEME мотива для обеих групп контроля следующими командами:
fimo --oc fimo_pos -thresh 0.001 meme_out/meme.txt positive.fasta
fimo --oc fimo_neg -thresh 0.001 meme_out/meme.txt negative.fasta
Параметр -thresh 0.001 нужен для фильтрации незначимых находок (оставляет лишь те находки, для которых p-value меньше 0.001). Выдачу FIMO для группы положительного контроля можно посмотреть тут, а для отрицательного здесь.
По результатам выдачи оказалось, что среди группы положительного контроля 443 значимых находки (что соответствует 10,5% подаваемых в группе последовательностей), а среди группы отрицательного контроля всего 64 значимых находки (около 1,5% от общего числа, очень мало, как и ожидалось). Данные результаты позволяют заявить, что, вполне вероятно, найденный мотив ATTAAGGAG является консенсусной последовательностью Шайна-Дальгарно или по крайней мере ее аналогом для данной бактерии.