Факторы транскрипции. Поиск de novo сигналов в ДНК.

Целью данного практикума являлся поиск сигнала - последовательность Shine-Dalgarno или SD, в геноме бактерии Tenacibaculum finnmarkense. Последовательность Шайна-Дальгарно - это сайт посадки малой субъединицы рибосомы на мРНК, то есть сигнал инициации трансляции. SD располагается на расстоянии 5-10 нуклеотидов перед старт-кодоном.
Сначала были скачаны необходимые файлы из NCBI (сборка ASM2120604v1): файл с последовательностью генома Tenacibaculum finnmarkense в формате fasta, а также файл с аннотацией этого генома в формате gff3.
Далее по этим файлам с помощью сервиса Operon-mapper был получен список оперонов.
С помощью скрипта python было создано 3 набора последовательностей: обучения (гены домашнего хозяйства), тестирования и негативного контроля. Область в 100 нуклеотидов перед стартом каждого оперона была определена как промотор.

Поиск с помощью MEME

Полученный файл housekeeping.fasta содержит последовательности перед генами, которые постоянно экспрессируются и часто имеют консервативные промоторные элементы. Для запуска MEME на группе обучения (housekeeping.fasta) использовалась следующая команда:

meme housekeeping.fasta -dna -nmotifs 3 -minw 5 -maxw 10
Искались 3 мотива (-nmotifs 3) длиной от 5 до 10 нуклеотидов (-minw 5 и -maxw 10).
В результате был получен HTML-отчет, LOGO найденных мотивов представленs на Рис. 1-3. Эти последовательности мало похожи на SD.

Рисунок 2
Рисунок 1. LOGO 1го найденного с помощью MEME мотива (e-value=1.5e+002)
Рисунок 2
Рисунок 2. LOGO 2го найденного с помощью MEME мотива (e-value=2.4e+003)
Рисунок 2
Рисунок 3. LOGO 3го найденного с помощью MEME мотива (e-value=3.5e+003)

Поиск с помощью FIMO

Поиск мотивов, найденных с помощью MEME был осуществлен для групп тестирования и негативного контроля:
Тестирование – файл promotors.fasta – где хотим найти мотив (содержит последовательности промоторных областей для всех оперонов из генома бактерии).
Негативный контроль – файл negative.fasta – содержит последовательности из генома, где не ожидается обнаружить мотивы (последовательности, взятые из случайных позиций генома).
Команды:

fimo --oc fimo_pr -thresh 0.001 meme_out/meme.txt promotors.fasta
fimo --oc fimo_neg -thresh 0.001 meme_out/meme.txt negative.fasta
-thresh 0.001: остаются только находки, для которых p-value меньше 0.001

Выдача для группы тестирования – 599 находок (11.7% последовательностей).
Выдача для группы негативного контроля - 28 находок (9.4% последовательностей).

Доля последовательностей, в которых был обнаружен один из мотивов мотив слабо различается между двумя группами, также e-value мотивов слишком большое, чтобы говорить о статистической значимости таких находок.
Следовательно, вероятно, эти мотивы не являются значимыми сигналами в геноме.