Поиск оперонов в геноме P. alkylphenolica.
Для выполнения задания был выбран геном Pseudomonas alkylphenolica (g-proteobacteria) strain=KL28. Поиск оперонов был выполнен с помощью web-сервиса Operon-mapper , на вход подавались файлы с геномом бактерии в формате .fasta и файл с геномной разметкой в формате .gff . Выходной файл, содержит список оперонов, Промотором считалось 100 нуклеотидов перед опероном. В качестве материала для обучения было выбрано 50 случайных генов домашнего хозяйства,( гены были найдены с помощью поиска по ключевым словам в описании функции оперона), негативного контроля - случайные последовательности генома длиной в 100 нуклеотидов. Все материалы (housekeeping.fasta, negative.fasta, promotors.fasta) были получены с помощью скрипта Георгия Муравьева.
Для поиска сигналов была использована программа MEME, запущеннаяс помощью команды:
meme housekeeping.fasta -dna -mod zoops -nmotifs 3 -minw 6 -maxw 50 -maxsites 50
В результате работы программы було получено 3 мотива:
Выше представлены мотивы с самым маленьким p-value.
В найденных мотивах есть области похожие на последовательность SD.
Для дальнейшей работы был выбран мотив 1.
Чтобы найти мотив-1 в последовательностях промоторов и последовательностях негативного контроля с помощью следующих команд была запущена программа FIMO:
fimo --norc -motif WTCGCGGGGCAAGCCCGCTCCCACMG -thresh 0.001 ./meme_out/meme.txt promotors.fasta
fimo --norc -motif WTCGCGGGGCAAGCCCGCTCCCACMG -thresh 0.001 ./meme_out/meme.txt negative.fasta
В последовательностях промоторов было найдено 1272 находки, и получены следующие выходные файлы. fimo.html, fimo.tsv.
В последовательностях негативного контроля было найдено 102 находки, и получены следующие выходные файлы: fimo.html, fimo.tsv.