Факторы транскрипции. Поиск de novo сигналов в ДНК.
Целью данного практикума являлся поиск сигнала - последовательность Shine-Dalgarno или SD, в геноме бактерии Tenacibaculum finnmarkense. Последовательность Шайна-Дальгарно - это сайт посадки малой субъединицы рибосомы на мРНК, то есть сигнал инициации трансляции. SD располагается на расстоянии 5-10 нуклеотидов перед старт-кодоном. Сначала были скачаны необходимые файлы из NCBI (сборка ASM2120604v1): файл с последовательностью генома Tenacibaculum finnmarkense в формате fasta, а также файл с аннотацией этого генома в формате gff3. Далее по этим файлам с помощью сервиса Operon-mapper был получен список оперонов. С помощью скрипта python было создано 3 набора последовательностей: обучения (гены домашнего хозяйства), тестирования и негативного контроля. Область в 100 нуклеотидов перед стартом каждого оперона была определена как промотор.
Поиск с помощью MEME
Полученный файл housekeeping.fasta содержит последовательности перед генами, которые постоянно экспрессируются и часто имеют консервативные промоторные элементы. Для запуска MEME на группе обучения (housekeeping.fasta) использовалась следующая команда:
meme housekeeping.fasta -dna -nmotifs 3 -minw 5 -maxw 10Искались 3 мотива (-nmotifs 3) длиной от 5 до 10 нуклеотидов (-minw 5 и -maxw 10). В результате был получен HTML-отчет, LOGO найденных мотивов представленs на Рис. 1-3. Эти последовательности мало похожи на SD.



Поиск с помощью FIMO
Поиск мотивов, найденных с помощью MEME был осуществлен для групп тестирования и негативного контроля: Тестирование – файл promotors.fasta – где хотим найти мотив (содержит последовательности промоторных областей для всех оперонов из генома бактерии). Негативный контроль – файл negative.fasta – содержит последовательности из генома, где не ожидается обнаружить мотивы (последовательности, взятые из случайных позиций генома). Команды:
fimo --oc fimo_pr -thresh 0.001 meme_out/meme.txt promotors.fasta
fimo --oc fimo_neg -thresh 0.001 meme_out/meme.txt negative.fasta-thresh 0.001: остаются только находки, для которых p-value меньше 0.001
Выдача для группы тестирования – 599 находок (11.7% последовательностей). Выдача для группы негативного контроля - 28 находок (9.4% последовательностей).
Доля последовательностей, в которых был обнаружен один из мотивов мотив слабо различается между двумя группами, также e-value мотивов слишком большое, чтобы говорить о статистической значимости таких находок. Следовательно, вероятно, эти мотивы не являются значимыми сигналами в геноме.